論文の概要: SEAL: Systematic Error Analysis for Value ALignment
- arxiv url: http://arxiv.org/abs/2408.10270v1
- Date: Fri, 16 Aug 2024 18:48:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 18:28:07.431198
- Title: SEAL: Systematic Error Analysis for Value ALignment
- Title(参考訳): SEAL: 価値アライメントのための体系的エラー解析
- Authors: Manon Revel, Matteo Cargnelutti, Tyna Eloundou, Greg Leppert,
- Abstract要約: Reinforcement Learning from Human Feedbackは、言語モデルと人間の価値を結びつけることを目的としている。
その重要性にもかかわらず、RLHFの内部機構はよく分かっていない。
本稿では,人的価値のモデリングと整合性を評価するための新しい指標を提案する。
- 参考スコア(独自算出の注目度): 4.2185937778110825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) aims to align language models (LMs) with human values by training reward models (RMs) on binary preferences and using these RMs to fine-tune the base LMs. Despite its importance, the internal mechanisms of RLHF remain poorly understood. This paper introduces new metrics to evaluate the effectiveness of modeling and aligning human values, namely feature imprint, alignment resistance and alignment robustness. We categorize alignment datasets into target features (desired values) and spoiler features (undesired concepts). By regressing RM scores against these features, we quantify the extent to which RMs reward them - a metric we term feature imprint. We define alignment resistance as the proportion of the preference dataset where RMs fail to match human preferences, and we assess alignment robustness by analyzing RM responses to perturbed inputs. Our experiments, utilizing open-source components like the Anthropic/hh-rlhf preference dataset and OpenAssistant RMs, reveal significant imprints of target features and a notable sensitivity to spoiler features. We observed a 26% incidence of alignment resistance in portions of the dataset where LM-labelers disagreed with human preferences. Furthermore, we find that misalignment often arises from ambiguous entries within the alignment dataset. These findings underscore the importance of scrutinizing both RMs and alignment datasets for a deeper understanding of value alignment.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、言語モデル(LM)を2進選好に基づいてトレーニングし、これらのRMを用いて基本LMを微調整することで、人間の価値に合わせることを目的としている。
その重要性にもかかわらず、RLHFの内部機構はよく分かっていない。
本稿では,人的価値,すなわち特徴インプリント,アライメント抵抗,アライメントロバストネスのモデル化とアライメントの有効性を評価するための新しい指標を提案する。
データセットを対象の特徴(望まれる値)とスポイラー特徴(望ましくない概念)に分類する。
これらの特徴に対してRMスコアを回帰することにより、RMがそれらにどのような報酬を与えるかを定量化します。
本研究では, RMが人間の嗜好と一致しない選好データセットの比率としてアライメント抵抗を定義し, 摂動入力に対するRM応答を分析してアライメントロバスト性を評価する。
Anthropic/hh-rlhf 選好データセットや OpenAssistant RM などのオープンソースコンポーネントを用いた実験により,ターゲット特徴の顕著なインプリントと,スポイラー特徴に対する顕著な感度が明らかになった。
LM-labelers がヒトの嗜好に反する部分のアライメント抵抗が 26% の頻度で観測された。
さらに、アライメントデータセット内のあいまいなエントリから、不整合が生じることも少なくない。
これらの結果は、価値アライメントをより深く理解するために、RMとアライメントデータセットの両方を精査することの重要性を強調している。
関連論文リスト
- RMB: Comprehensively Benchmarking Reward Models in LLM Alignment [44.84304822376291]
リワードモデル(RM)は、大きな言語モデル(LLM)のアライメントをガイドする。
我々は、49以上の実世界のシナリオをカバーする包括的なRMベンチマークであるRMBを提案する。
ベンチマークに基づいて、最先端のRMについて広範な分析を行う。
論文 参考訳(メタデータ) (2024-10-13T16:06:54Z) - Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? [46.396681032860414]
RMの精度の違いが、最適化されたポリシー性能のギャップにどのように変換されるかを検討する。
精度の測定方法が最終的な政策性能を予測する能力に大きく影響していることが判明した。
論文 参考訳(メタデータ) (2024-10-08T00:52:03Z) - Distribution Learning for Molecular Regression [10.96062816455682]
Distributional Mixture of Experts (DMoE) はモデルに依存しない、データに依存しない回帰法である。
分子特性予測データセットを用いたDMoEの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-30T00:21:51Z) - Hummer: Towards Limited Competitive Preference Dataset [19.03597445162459]
我々は、嗜好データセット内の競合の度合いを定量化するために、新しいメトリクスAlignment Dimension Conflictを導入する。
我々は、textttHummerとその細粒度の変種である textttHummer-F を、コンフリクトアライメントの少ない革新的なペアワイズ選好データセットとして提示する。
論文 参考訳(メタデータ) (2024-05-19T18:57:25Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z) - AttriMeter: An Attribute-guided Metric Interpreter for Person
Re-Identification [100.3112429685558]
Person ReIDシステムは、2人とのマッチング時にのみ距離や類似性を提供します。
CNN ベースの ReID モデルの結果を意味的に,定量的に説明する Attribute-Guided Metric Interpreter を提案する。
論文 参考訳(メタデータ) (2021-03-02T03:37:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。