論文の概要: Back to Blackwell: Closing the Loop on Intransitivity in Multi-Objective Preference Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.19041v1
- Date: Sun, 22 Feb 2026 04:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.456573
- Title: Back to Blackwell: Closing the Loop on Intransitivity in Multi-Objective Preference Fine-Tuning
- Title(参考訳): バック・トゥ・ブラックウェル:多目的選好ファインチューニングにおける非透過性ループの閉鎖
- Authors: Jiahao Zhang, Lujing Zhang, Keltin Grimes, Zhuohao Yu, Gokul Swamy, Zhiwei Steven Wu,
- Abstract要約: 我々は、新しいゲーム理論のソリューション概念 -- $textitMaximum Entropy Blackwell Winner$ ($textitMaxEntBW$)を提案する。
次に、多目的LLM-as-a-Judgeフィードバックから大規模言語モデルを微調整する問題に$textttPROSPER$を適用する。
textttPROSPER$は、命令フォローと一般的なチャットベンチマークの両方で考慮されたすべてのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 31.96149633106621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recurring challenge in preference fine-tuning (PFT) is handling $\textit{intransitive}$ (i.e., cyclic) preferences. Intransitive preferences often stem from either $\textit{(i)}$ inconsistent rankings along a single objective or $\textit{(ii)}$ scalarizing multiple objectives into a single metric. Regardless of their source, the downstream implication of intransitive preferences is the same: there is no well-defined optimal policy, breaking a core assumption of the standard PFT pipeline. In response, we propose a novel, game-theoretic solution concept -- the $\textit{Maximum Entropy Blackwell Winner}$ ($\textit{MaxEntBW}$) -- that is well-defined under multi-objective intransitive preferences. To enable computing MaxEntBWs at scale, we derive $\texttt{PROSPER}$: a provably efficient PFT algorithm. Unlike prior self-play techniques, $\texttt{PROSPER}$ directly handles multiple objectives without requiring scalarization. We then apply $\texttt{PROSPER}$ to the problem of fine-tuning large language models (LLMs) from multi-objective LLM-as-a-Judge feedback (e.g., rubric-based judges), a setting where both sources of intransitivity arise. We find that $\texttt{PROSPER}$ outperforms all baselines considered across both instruction following and general chat benchmarks, releasing trained model checkpoints at the 7B and 3B parameter scales.
- Abstract(参考訳): 選好微調整(PFT)における繰り返しの課題は、$\textit{intransitive}$ (すなわち循環的な)選好を扱うことである。
intransitive preferences は $\textit{
(i)}$ inconsistent ranks along a single objective or $\textit{
(ii)$ 複数の目的を1つの計量にスキャラライズする。
ソースに関係なく、非推移的選好の下流の含意は同じである: 明確な最適ポリシーはなく、標準のPFTパイプラインのコア仮定を破る。
これに対して,ゲーム理論の新たな概念である$\textit{Maximum Entropy Blackwell Winner}$$$\textit{MaxEntBW}$)を提案する。
MaxEntBWsを大規模に計算するために、$\texttt{PROSPER}$:証明可能な効率の良いPFTアルゴリズムを導出する。
従来のセルフプレイのテクニックとは異なり、$\texttt{PROSPER}$はスカラー化を必要とせずに、複数の目的を直接処理する。
次に,多目的LLM-as-a-Judgeフィードバック(例:ルーブリック型判断器)からの大言語モデル(LLM)を微調整する問題に対して,$\texttt{PROSPER}$を適用する。
$\texttt{PROSPER}$は、7Bおよび3Bパラメータスケールでトレーニングされたモデルチェックポイントをリリースし、命令フォローと一般的なチャットベンチマークの両方で考慮されたベースラインを上回ります。
関連論文リスト
- Thompson Sampling for Multi-Objective Linear Contextual Bandit [29.777578580338584]
本稿では,複数の競合する対象を同時に最適化しなければならない多目的線形文脈帯域問題について検討する。
本稿では,テキストファーストのトンプソンサンプリングアルゴリズムである textttMOL-TS を提案する。
提案手法の利点を実証し, 後悔の最小化と多目的性能の向上を実証した。
論文 参考訳(メタデータ) (2025-11-30T15:18:01Z) - Reinforcement Learning from Adversarial Preferences in Tabular MDPs [62.73758165845971]
我々は,敵対的嗜好を持つエピソードマルコフ決定プロセス(MDP)の新たな枠組みを導入する。
PbMDP では、標準的なエピソード MDP とは異なり、学習者は2つの候補アーム間の好みを観察する。
我々は、既知遷移の下で、T2/3$という残差境界を達成するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2025-07-15T20:19:32Z) - Optimal level set estimation for non-parametric tournament and crowdsourcing problems [49.75262185577198]
クラウドソーシングによって動機づけられた我々は、$d$の質問に対する$n$の専門家の回答の正しさを部分的に観察する問題を考える。
本稿では、専門家$i$が疑問に答える確率を含む行列$M$が、行と列の置換までの双等方性であることを仮定する。
我々は,この分類問題に対して最小限のアルゴリズムを最適に構築する。
論文 参考訳(メタデータ) (2024-08-27T18:28:31Z) - An Efficient Recipe for Long Context Extension via Middle-Focused Positional Encoding [25.20222970947923]
本稿では,事前学習された大規模言語モデル(LLM)の文脈長を拡張する手法を提案する。
$textttCREAM$ 位置インデックスを操作することで位置エンコーディングを補間する。
実験によると、$textttCREAM$ は "Never Miss A Beat" 付き $texttLlama2-7B$ の Base 版と Chat 版の両方で LLM をターゲット長まで拡張することができた。
論文 参考訳(メタデータ) (2024-06-11T10:35:49Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - Supervised Training of Conditional Monge Maps [107.78770597815242]
最適輸送(OT)理論は、多くの可能な選択の中から確率測度を他のものにマッピングする最も効率的な方法を定義し、選択する一般的な原理を記述している。
本研究では,コンテキスト変数に条件付きOTマップの族を推定するマルチタスク手法であるCondOTを紹介する。
本研究では,CondOTの遺伝的・治療的摂動の任意の組み合わせが単一細胞に与える影響を推測する能力を示す。
論文 参考訳(メタデータ) (2022-06-28T19:34:44Z) - Nearly Horizon-Free Offline Reinforcement Learning [97.36751930393245]
S$状態、$A$アクション、計画的地平$H$で、エピソードな時間同質なMarkov決定プロセスに関するオフライン強化学習を再考する。
経験的MDPを用いた評価と計画のための,約$H$自由なサンプル複雑性境界の最初の集合を得る。
論文 参考訳(メタデータ) (2021-03-25T18:52:17Z) - Accommodating Picky Customers: Regret Bound and Exploration Complexity
for Multi-Objective Reinforcement Learning [43.75491612671571]
目的と目的のバランスをとる多目的強化学習について、好みを用いて検討する。
我々はこの問題をマルコフ決定過程における叙述的学習問題として定式化する。
モデルに基づくアルゴリズムは、最小限の最小限のリセットを$widetildemathcalObigl(sqrtmind,Scdot H3 SA/epsilon2bigr)$とする。
論文 参考訳(メタデータ) (2020-11-25T21:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。