論文の概要: Distributional Alignment Games for Answer-Level Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.27166v1
- Date: Wed, 29 Apr 2026 20:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.790201
- Title: Distributional Alignment Games for Answer-Level Fine-Tuning
- Title(参考訳): Answer-Levelファインチューニングのための分布アライメントゲーム
- Authors: Mehryar Mohri, Jon Schneider, Yifan Wu,
- Abstract要約: 我々は,最終回答の正しさや特性に基づいて,言語モデルを最適化することを目的とする,emphAnswer-Level Fine-Tuning(ALFT)の問題に焦点をあてる。
emphDistributional Alignment Gameに問題を持ち上げる汎用ゲーム理論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.3455527898461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the problem of \emph{Answer-Level Fine-Tuning} (ALFT), where the goal is to optimize a language model based on the correctness or properties of its final answers, rather than the specific reasoning traces used to produce them. Directly optimizing answer-level objectives is computationally intractable due to the need to marginalize over the vast space of latent reasoning paths. To overcome this, we propose a general game-theoretical framework that lifts the problem to a \emph{Distributional Alignment Game}. We formulate ALFT as a two-player game between a Policy (the generator) and a Target (an auxiliary distribution). We prove that the Nash Equilibrium of this game corresponds exactly to the solution of the original answer-level optimization problem. This variational perspective transforms the intractable marginalization problem into a tractable projection problem. We demonstrate that this framework unifies recent approaches to diversity and self-improvement (coherence) and provide efficient algorithms compatible with Group Relative Policy Optimization (GRPO), such as Coherence-GRPO, yielding significant complexity gains in mathematical reasoning tasks.
- Abstract(参考訳): そこでは,最終的な回答の正確性や特性に基づいて,言語モデルを最適化することを目的としている。
答えレベルの目的を直接最適化することは、潜在的推論経路の広大な空間を疎外する必要があるため、計算的に難解である。
そこで本研究では,この問題を「emph{Distributional Alignment Game}」に引き上げる一般ゲーム理論フレームワークを提案する。
我々はALFTをポリシー(ジェネレータ)とターゲット(補助分布)の2つのプレイヤーゲームとして定式化する。
我々は、このゲームのナッシュ平衡が元の解レベルの最適化問題の解と正確に一致することを証明した。
この変分パースペクティブは、抽出可能な限界化問題を抽出可能な射影問題に変換する。
このフレームワークは多様性と自己改善(コヒーレンス)に対する最近のアプローチを統一し、コヒーレンス-GRPOのようなグループ相対ポリシー最適化(GRPO)と互換性のある効率的なアルゴリズムを提供する。
関連論文リスト
- A Data Driven Structural Decomposition of Dynamic Games via Best Response Maps [0.0]
本稿では,平衡計算の再構成による動的ゲームに対する概念的新しい定式化を提案する。
提案された定式化は、自律レース問題に動機づけられた2プレイヤーのオープンループダイナミックゲームにおいて、モンテカルロの大規模な研究に付随する数学的証明によって支持される。
論文 参考訳(メタデータ) (2026-02-05T05:44:53Z) - Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みを合わせることに成功している。
DPOのような一般的な手法は高い性能を示してきたが、彼らは言語モデルとの相互作用を帯域幅の問題として捉えている。
本稿では,アライメント問題を2プレイヤー定数マルコフゲームとしてモデル化することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-02-18T09:33:48Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Safe Subgame Resolving for Extensive Form Correlated Equilibrium [47.155175336085364]
相関平衡(Correlated Equilibrium)は、ナッシュ平衡(NE)よりも一般的な解概念であり、社会福祉の改善につながる。
テキストサブゲーム解決は,ゼロサムゲームにおけるNEの発見に極めて成功した手法であり,一般サム EFCE の解法である。
サブゲーム解決は、テキストトン方式で相関計画を洗練させる: ゲーム全体を前もって解決するのではなく、実際のプレイで到達したサブゲームにおける戦略のためにのみ解決する。
論文 参考訳(メタデータ) (2022-12-29T14:20:48Z) - Regularized Gradient Descent Ascent for Two-Player Zero-Sum Markov Games [16.09467599829253]
本研究では,2プレーヤゼロサムゲームにおけるナッシュ平衡を求める問題について検討する。
我々の主な貢献は、正規化パラメータの適切な選択の下で、勾配が元の非正規化問題のナッシュ平衡に傾くことを示すことである。
論文 参考訳(メタデータ) (2022-05-27T03:24:12Z) - Optimal Correlated Equilibria in General-Sum Extensive-Form Games: Fixed-Parameter Algorithms, Hardness, and Two-Sided Column-Generation [78.48747645545944]
ワイドフォームゲームにおいて,様々な種類の最適平衡を求める問題について検討する。
これら3つの概念のすべてに最適な平衡を計算するための新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-03-14T15:21:18Z) - On Satisficing in Quantitative Games [30.53498001438171]
本研究は,割引コストモデルを用いた2プレイヤーグラフゲームにおける満足度問題を定義し,検討する。
最適化問題と同様に数値手法で満足度を解くことができるが、この手法は最適化よりも説得力のある利点を示さない。
論文 参考訳(メタデータ) (2021-01-06T07:47:13Z) - Competitive Mirror Descent [67.31015611281225]
制約のある競合最適化には、制約の対象となる競合する目的を最小化しようとする複数のエージェントが含まれる。
本稿では, 競合ミラー降下法(CMD)を提案する。
特別の場合として、正の円錐上の問題に対する新しい競合乗法重みアルゴリズムを得る。
論文 参考訳(メタデータ) (2020-06-17T22:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。