Fugu-MT 論文翻訳(概要): KTO: Model Alignment as Prospect Theoretic Optimization

論文の概要: KTO: Model Alignment as Prospect Theoretic Optimization

arxiv url: http://arxiv.org/abs/2402.01306v1
Date: Fri, 2 Feb 2024 10:53:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 15:52:49.820867
Title: KTO: Model Alignment as Prospect Theoretic Optimization
Title（参考訳）: KTO:将来の理論最適化としてのモデルアライメント
Authors: Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, Douwe Kiela
Abstract要約: Kahneman & Tversky の $textitprospect theory$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚することを示している。人間のフィードバックとLLMを協調させる目的には,これらのバイアスが暗黙的に組み込まれていることを示す。そこで本稿では,嗜好のログ類似度を最大化する代わりに,世代別利用率を直接最大化するHALOを提案する。
参考スコア（独自算出の注目度）: 72.3561669924904
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Kahneman & Tversky's $\textit{prospect theory}$ tells us that humans perceive random variables in a biased but well-defined manner; for example, humans are famously loss-averse. We show that objectives for aligning LLMs with human feedback implicitly incorporate many of these biases -- the success of these objectives (e.g., DPO) over cross-entropy minimization can partly be ascribed to them being $\textit{human-aware loss functions}$ (HALOs). However, the utility functions these methods attribute to humans still differ from those in the prospect theory literature. Using a Kahneman-Tversky model of human utility, we propose a HALO that directly maximizes the utility of generations instead of maximizing the log-likelihood of preferences, as current methods do. We call this approach Kahneman-Tversky Optimization (KTO), and it matches or exceeds the performance of preference-based methods at scales from 1B to 30B. Crucially, KTO does not need preferences -- only a binary signal of whether an output is desirable or undesirable for a given input. This makes it far easier to use in the real world, where preference data is scarce and expensive.
Abstract（参考訳）: Kahneman & Tversky's $\textit{prospect theory}$は、人間が偏見はあるが明確に定義された方法でランダムな変数を知覚することを示している。我々は、LLMを人間のフィードバックに合わせる目的が、これらのバイアスの多くを暗黙的に取り入れていることを示し、例えば、クロスエントロピーの最小化よりも、これらの目的(例えば、DPO)の成功は、部分的に$\textit{human-aware loss function}$ (HALOs)と記述できることを示した。しかし、これらの方法が人間に持つ効用関数は、まだ先見論文献にあるものとは異なる。人間のユーティリティのKahneman-Tverskyモデルを用いて、現在の方法のように、好みのログを最大化するのではなく、世代ごとのユーティリティを直接最大化するHALOを提案する。このアプローチをKTO(Kahneman-Tversky Optimization)と呼び、1Bから30Bのスケールで、好みに基づく手法のパフォーマンスを一致または超える。重要なことは、KTOは好みを必要としない -- 与えられた入力に対して出力が望ましいか望ましくないかのバイナリ信号のみである。これにより、プレファレンスデータが不足し、コストがかかる現実世界での使用がはるかに容易になります。

関連論文リスト

Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文参考訳（メタデータ） (2025-05-19T08:29:28Z)
Jackpot! Alignment as a Maximal Lottery [13.984371386519424]
本稿では,RLHFの代替として,Emphmaximal lotteriesと呼ばれる確率的社会選択規則を提案する。そこで本研究では,Nash Learning from Human Feedback (NLHF) citemunos2023nash および variants というアライメント手法のファミリーが,最大抽選結果に近似して有益な特性を継承することを示した。
論文参考訳（メタデータ） (2025-01-31T16:26:28Z)
Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。適切な前提の下では、単純な後悔に縛られる。
論文参考訳（メタデータ） (2024-10-22T14:36:44Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Averaging log-likelihoods in direct alignment [43.77763433288893]
本稿では,RL問題に対する最適ポリシーを与える最適演算子で構成する,新しい平均演算子を提案する。このような平均化の効果を実証的に研究し、世代長とスコアのトレードオフを観察する。
論文参考訳（メタデータ） (2024-06-27T14:07:38Z)
Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文参考訳（メタデータ） (2024-06-21T18:06:30Z)
Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文参考訳（メタデータ） (2024-05-29T17:39:48Z)
Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。 CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文参考訳（メタデータ） (2023-10-20T16:37:56Z)
Learning Optimal Advantage from Preferences and Mistaking it for Reward [43.58066500250688]
最近の研究は、人間の嗜好はこれらのセグメントに蓄積された報酬またはその部分的なリターンに基づいて生成されると仮定している。本研究は, 後悔から生じる部分的回帰に基づいて, 嗜好を仮定した結果について検討する。本論文は,人間の嗜好の仕方に乏しいにもかかわらず,部分回帰選好モデル下での学習が実際になぜうまく機能するのかを概観する。
論文参考訳（メタデータ） (2023-10-03T21:58:24Z)
Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。 RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文参考訳（メタデータ） (2023-05-29T01:18:39Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)
A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文参考訳（メタデータ） (2021-05-25T10:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。