論文の概要: KTO: Model Alignment as Prospect Theoretic Optimization
- arxiv url: http://arxiv.org/abs/2402.01306v1
- Date: Fri, 2 Feb 2024 10:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:52:49.820867
- Title: KTO: Model Alignment as Prospect Theoretic Optimization
- Title(参考訳): KTO:将来の理論最適化としてのモデルアライメント
- Authors: Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe
Kiela
- Abstract要約: Kahneman & Tversky の $textitprospect theory$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚することを示している。
人間のフィードバックとLLMを協調させる目的には,これらのバイアスが暗黙的に組み込まれていることを示す。
そこで本稿では,嗜好のログ類似度を最大化する代わりに,世代別利用率を直接最大化するHALOを提案する。
- 参考スコア(独自算出の注目度): 72.3561669924904
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Kahneman & Tversky's $\textit{prospect theory}$ tells us that humans perceive
random variables in a biased but well-defined manner; for example, humans are
famously loss-averse. We show that objectives for aligning LLMs with human
feedback implicitly incorporate many of these biases -- the success of these
objectives (e.g., DPO) over cross-entropy minimization can partly be ascribed
to them being $\textit{human-aware loss functions}$ (HALOs). However, the
utility functions these methods attribute to humans still differ from those in
the prospect theory literature. Using a Kahneman-Tversky model of human
utility, we propose a HALO that directly maximizes the utility of generations
instead of maximizing the log-likelihood of preferences, as current methods do.
We call this approach Kahneman-Tversky Optimization (KTO), and it matches or
exceeds the performance of preference-based methods at scales from 1B to 30B.
Crucially, KTO does not need preferences -- only a binary signal of whether an
output is desirable or undesirable for a given input. This makes it far easier
to use in the real world, where preference data is scarce and expensive.
- Abstract(参考訳): Kahneman & Tversky's $\textit{prospect theory}$は、人間が偏見はあるが明確に定義された方法でランダムな変数を知覚することを示している。
我々は、LLMを人間のフィードバックに合わせる目的が、これらのバイアスの多くを暗黙的に取り入れていることを示し、例えば、クロスエントロピーの最小化よりも、これらの目的(例えば、DPO)の成功は、部分的に$\textit{human-aware loss function}$ (HALOs)と記述できることを示した。
しかし、これらの方法が人間に持つ効用関数は、まだ先見論文献にあるものとは異なる。
人間のユーティリティのKahneman-Tverskyモデルを用いて、現在の方法のように、好みのログを最大化するのではなく、世代ごとのユーティリティを直接最大化するHALOを提案する。
このアプローチをKTO(Kahneman-Tversky Optimization)と呼び、1Bから30Bのスケールで、好みに基づく手法のパフォーマンスを一致または超える。
重要なことは、KTOは好みを必要としない -- 与えられた入力に対して出力が望ましいか望ましくないかのバイナリ信号のみである。
これにより、プレファレンスデータが不足し、コストがかかる現実世界での使用がはるかに容易になります。
関連論文リスト
- Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A
Case-Study in E-Commerce Opinion Summarization [32.5709529987173]
Reinforcement Learning from Human Feedback (RLHF) は、人間の価値観や目標に対する言語モデル(LM)の運営において支配的な戦略となっている。
本稿では,ドメイン知識を$varphi$に注入する新しい手法を提案する。
我々の貢献には、新しいリワードモデリング技術、オピニオン要約のための新しいデータセット(PromptOpinSumm)、人間の好みデータセット(OpinPref)が含まれる。
論文 参考訳(メタデータ) (2024-02-23T18:05:06Z) - Preference-free Alignment Learning with Regularized Relevance Reward [46.70226389831863]
人間の好みから学ぶことは、Large Language Models(LLM)と人間の価値を整合させる鍵と考えられてきた。
一般の信念とは対照的に、私たちの予備研究では、人間の嗜好データセットに基づいてトレーニングされた報酬モデルが、長いオフトピーの反応により高いスコアを与える傾向があることが明らかになった。
我々は、アライメントの鍵となる目的として「関連性」を利用した嗜好のないアプローチを探求する。
論文 参考訳(メタデータ) (2024-02-02T11:58:08Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Learning Optimal Advantage from Preferences and Mistaking it for Reward [43.58066500250688]
最近の研究は、人間の嗜好はこれらのセグメントに蓄積された報酬またはその部分的なリターンに基づいて生成されると仮定している。
本研究は, 後悔から生じる部分的回帰に基づいて, 嗜好を仮定した結果について検討する。
本論文は,人間の嗜好の仕方に乏しいにもかかわらず,部分回帰選好モデル下での学習が実際になぜうまく機能するのかを概観する。
論文 参考訳(メタデータ) (2023-10-03T21:58:24Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Misspecification in Inverse Reinforcement Learning [80.91536434292328]
逆強化学習(IRL)の目的は、ポリシー$pi$から報酬関数$R$を推論することである。
IRLの背後にある主要な動機の1つは、人間の行動から人間の嗜好を推測することである。
これは、それらが誤って特定され、現実世界のデータに適用された場合、不適切な推測につながる恐れが生じることを意味する。
論文 参考訳(メタデータ) (2022-12-06T18:21:47Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - The Boltzmann Policy Distribution: Accounting for Systematic
Suboptimality in Human Models [5.736353542430439]
本稿では,Boltzmann Policy Distribution(BPD)を紹介する。
BPDはベイズ推論を介して適応し、1回のエピソードで人間の行動を観察することで系統的な偏差を捉える。
我々は,BPDが人間行動の予測と人間-AI協調を可能にすると同時に,模倣学習に基づく人間モデルも可能であることを示す。
論文 参考訳(メタデータ) (2022-04-22T15:26:25Z) - Linear Speedup in Personalized Collaborative Learning [69.45124829480106]
フェデレート学習におけるパーソナライゼーションは、モデルのバイアスをトレーディングすることで、モデルの精度を向上させることができる。
ユーザの目的の最適化として、パーソナライズされた協調学習問題を定式化する。
分散の低減のためにバイアスを最適にトレードオフできる条件について検討する。
論文 参考訳(メタデータ) (2021-11-10T22:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。