論文の概要: Understanding the Learning Dynamics of Alignment with Human Feedback
- arxiv url: http://arxiv.org/abs/2403.18742v4
- Date: Tue, 16 Apr 2024 16:38:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 22:17:00.373062
- Title: Understanding the Learning Dynamics of Alignment with Human Feedback
- Title(参考訳): 人間のフィードバックによるアライメントの学習ダイナミクスの理解
- Authors: Shawn Im, Yixuan Li,
- Abstract要約: 本稿では,人間の嗜好アライメントの学習力学を理論的に解析する試みについて述べる。
選好データセットの分布がモデル更新率にどのように影響するかを示し、トレーニング精度に厳密な保証を与える。
- 参考スコア(独自算出の注目度): 17.420727709895736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) with human intentions has become a critical task for safely deploying models in real-world systems. While existing alignment approaches have seen empirical success, theoretically understanding how these methods affect model behavior remains an open question. Our work provides an initial attempt to theoretically analyze the learning dynamics of human preference alignment. We formally show how the distribution of preference datasets influences the rate of model updates and provide rigorous guarantees on the training accuracy. Our theory also reveals an intricate phenomenon where the optimization is prone to prioritizing certain behaviors with higher preference distinguishability. We empirically validate our findings on contemporary LLMs and alignment tasks, reinforcing our theoretical insights and shedding light on considerations for future alignment approaches. Disclaimer: This paper contains potentially offensive text; reader discretion is advised.
- Abstract(参考訳): 大規模言語モデル(LLM)を人間の意図で調整することは、現実世界のシステムにモデルを安全にデプロイするための重要なタスクとなっている。
既存のアライメントアプローチは経験的な成功を見てきたが、これらの手法がモデル行動にどのように影響するか理論的に理解することは未解決の問題である。
我々の研究は、人間の嗜好アライメントの学習力学を理論的に解析するための最初の試みである。
本稿では,嗜好データセットの分布がモデル更新率にどのように影響するかを正式に示すとともに,トレーニング精度に厳密な保証を与える。
我々の理論はまた、最適化がより高い選好性で特定の振る舞いを優先順位付けする傾向がある複雑な現象も明らかにしている。
我々は、現代のLCMとアライメントタスクに関する知見を実証的に検証し、理論的な洞察を強化し、将来のアライメントアプローチの考察に光を当てる。
Disclaimer: この論文には攻撃的なテキストが含まれており、読者の判断は推奨される。
関連論文リスト
- Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Supervised Fine-Tuning as Inverse Reinforcement Learning [8.044033685073003]
LLM(Large Language Models)の整合性に対する一般的なアプローチは、一般的に人間やAIのフィードバックに依存します。
本研究では,このようなデータセットの有効性に疑問を呈し,専門家による実演との整合性がより現実的であることを証明した様々なシナリオを探索する。
論文 参考訳(メタデータ) (2024-03-18T17:52:57Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Fair Representation Learning using Interpolation Enabled Disentanglement [9.043741281011304]
a) 下流タスクに対する学習された表現の有用性を確保しつつ、公平な不整合表現を同時に学べるか、(b) 提案手法が公正かつ正確であるかどうかに関する理論的知見を提供する。
前者に対応するために,補間可能外乱を用いた公正表現学習法FRIEDを提案する。
論文 参考訳(メタデータ) (2021-07-31T17:32:12Z) - FAIR: Fair Adversarial Instance Re-weighting [0.7829352305480285]
本研究では,公正な予測を確実にするインスタンス重み付け関数の学習に敵対的トレーニングを利用するFair Adrial Instance Re-weighting(FAIR)手法を提案する。
我々の知る限りでは、これは、個々のインスタンスの公平性に関する解釈可能な情報を提供する重み付け関数によって、再重み付けと逆方向のアプローチをマージする最初のモデルである。
論文 参考訳(メタデータ) (2020-11-15T10:48:56Z) - FairALM: Augmented Lagrangian Method for Training Fair Models with
Little Regret [42.66567001275493]
現在、我々がモデルに提示するデータセットのバイアスのため、公正な公開トレーニングが不公平なモデルにつながることは受け入れられている。
そこで本研究では,モデルのトレーニング中に公平性を同時に課すメカニズムについて検討する。
論文 参考訳(メタデータ) (2020-04-03T03:18:53Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。