論文の概要: GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare
- arxiv url: http://arxiv.org/abs/2510.08872v1
- Date: Fri, 10 Oct 2025 00:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.913285
- Title: GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare
- Title(参考訳): GTAlign: 相互福祉のためのLLMアシスタントのゲーム理論アライメント
- Authors: Siqi Zhu, David Zhang, Pedro Cisneros-Velarde, Jiaxuan You,
- Abstract要約: 推論と学習の両方にゲーム理論による意思決定を統合するアライメントフレームワークを提案する。
GTAlignは,ベースラインに比べて推論効率,回答品質,相互福祉を著しく改善することを示した。
- 参考スコア(独自算出の注目度): 34.11305361948566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable progress in reasoning, yet sometimes produce responses that are suboptimal for users in tasks such as writing, information seeking, or providing practical guidance. Conventional alignment practices typically assume that maximizing model reward also maximizes user welfare, but this assumption frequently fails in practice: models may over-clarify or generate overly verbose reasoning when users prefer concise answers. Such behaviors resemble the prisoner's dilemma, where individually rational choices lead to socially suboptimal outcomes. The fundamental challenge is the lack of a principled decision making mechanism that mutually benefits both the LLM and the user. We propose Game-Theoretic Alignment (GTAlign), an alignment framework that integrates game-theoretic decision making into both reasoning and training. During reasoning, the model explicitly treats user-LLM interaction as a strategic game: it constructs payoff matrices within its reasoning chain to estimate welfare for both itself and the user, and then selects actions that are mutually beneficial. During training, we introduce a mutual welfare reward that reinforces cooperative responses, aligning model behavior with socially efficient outcomes. In addition, we introduce an inference technique that leverages game-theoretic reasoning to dynamically adapt LLM's response when pricing policies of LLM service change. Extensive experiments demonstrate that GTAlign substantially improves reasoning efficiency, answer quality, and mutual welfare compared to baselines across diverse tasks. The code is available at https://github.com/ulab-uiuc/GTAlign .
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論において顕著な進歩を遂げているが、書き込みや情報検索、実用的なガイダンスの提供といったタスクにおいて、ユーザにとって最適ではない応答を生成することもある。
従来のアライメントのプラクティスでは、モデル報酬の最大化はユーザーの福祉を最大化するが、この仮定はしばしば失敗する。
このような行動は囚人のジレンマに似ており、個々に合理的な選択が社会的に最適以下の結果をもたらす。
根本的な課題は、LLMとユーザの両方に相互に利益をもたらす、原則化された意思決定メカニズムの欠如である。
ゲーム理論決定を推論とトレーニングの両方に統合するアライメントフレームワークであるゲーム理論アライメント(GTAlign)を提案する。
推論の間、モデルはユーザとLLMの相互作用を戦略的ゲームとして明示的に扱い、推論チェーン内にペイオフ行列を構築して、それ自身とユーザの両方の福祉を見積もり、相互に有益なアクションを選択する。
トレーニング中に、協調的な反応を強化し、モデル行動と社会的に効率的な結果とを整合させる相互福祉報酬を導入する。
さらに, LLM サービス変更の価格ポリシの時, ゲーム理論的推論を利用して LLM の応答を動的に適応する推論手法を提案する。
大規模な実験により、GTAlignは様々なタスクのベースラインに比べて推論効率、回答品質、相互福祉を大幅に改善することが示された。
コードはhttps://github.com/ulab-uiuc/GTAlignで入手できる。
関連論文リスト
- Aligning Large Language Models via Fully Self-Synthetic Data [20.05693955243206]
大規模な言語モデル(LLM)に対する人間からのフィードバック(RLHF)からの伝統的な強化学習は、高価な人間の注釈付きデータセットに依存している。
本研究では,LLMアライメントのための完全自己合成フレームワークであるSelf-Alignment Optimization (SAO)を紹介する。
実験によると、AlpacaEval2.0のような標準ベンチマークでは、SAOがモデルのチャット機能を効果的に強化している。
論文 参考訳(メタデータ) (2025-10-08T05:07:45Z) - Social Welfare Function Leaderboard: When LLM Agents Allocate Social Welfare [87.06241096619112]
大規模言語モデル(LLM)は、人間の福祉に影響を及ぼす高い意思決定にますます信頼されている。
本稿では, LLMが主権アロケータとして機能する動的シミュレーション環境である社会福祉機能ベンチマークを紹介する。
我々は、20の最先端LCMを評価し、社会福祉確保のための第1のリーダーボードを提示する。
論文 参考訳(メタデータ) (2025-10-01T17:52:31Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Post-Training Large Language Models via Reinforcement Learning from Self-Feedback [3.73824942136665]
大規模言語モデル(LLM)は、しばしば可算だが校正が不十分な回答を生成する。
本稿では,自己フィードバックによる強化学習(RLSF)について紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:46:26Z) - Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文 参考訳(メタデータ) (2025-06-05T14:16:44Z) - Improving LLM General Preference Alignment via Optimistic Online Mirror Descent [57.622821649679786]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合において顕著な効果を示した。
本稿では,Bradley-Terry (BT) モデル仮定を廃止し,汎用ゲームとして定式化された LLM のアライメントについて検討する。
提案手法は双対性ギャップ上の$O(T-1)$バウンドを達成し、以前の$O(T-1/2)$の結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-24T05:24:52Z) - Approximating Human Strategic Reasoning with LLM-Enhanced Recursive Reasoners Leveraging Multi-agent Hypergames [3.5083201638203154]
我々は、洗練された推論者に適したロールベースのマルチエージェント戦略相互作用フレームワークを実装した。
我々は,最新のLCMの推論能力を評価するために,ワンショット2プレーヤ美容コンテストを用いた。
実験の結果,人間行動の近似と最適解への到達の両面で,人工推論がベースラインモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-11T10:37:20Z) - SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。