論文の概要: LLM Active Alignment: A Nash Equilibrium Perspective
- arxiv url: http://arxiv.org/abs/2602.06836v1
- Date: Fri, 06 Feb 2026 16:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.478989
- Title: LLM Active Alignment: A Nash Equilibrium Perspective
- Title(参考訳): LLMアクティブアライメント - ナッシュ平衡の視点から
- Authors: Tonghan Wang, Yuqi Pan, Xinyi Yang, Yanchen Jiang, Milind Tambe, David C. Parkes,
- Abstract要約: 我々は,大規模言語モデルの振る舞いを予測・操るゲーム理論フレームワークを開発した。
エージェントは、どのグループと整合するかを積極的に戦略的に選択し、解釈可能で行動的な政策クラスを得る。
- 参考スコア(独自算出の注目度): 34.54084293479338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a game-theoretic framework for predicting and steering the behavior of populations of large language models (LLMs) through Nash equilibrium (NE) analysis. To avoid the intractability of equilibrium computation in open-ended text spaces, we model each agent's action as a mixture over human subpopulations. Agents choose actively and strategically which groups to align with, yielding an interpretable and behaviorally substantive policy class. We derive closed-form NE characterizations, adopting standard concave-utility assumptions to enable analytical system-level predictions and give explicit, actionable guidance for shifting alignment targets toward socially desirable outcomes. The method functions as an active alignment layer on top of existing alignment pipelines such as RLHF. In a social-media setting, we show that a population of LLMs, especially reasoning-based models, may exhibit political exclusion, pathologies where some subpopulations are ignored by all LLM agents, which can be avoided by our method, illustrating the promise of applying the method to regulate multi-agent LLM dynamics across domains.
- Abstract(参考訳): 我々は,大言語モデル (LLM) の集団の振る舞いをナッシュ均衡 (NE) 分析により予測し,制御するためのゲーム理論フレームワークを開発した。
オープンエンドテキスト空間における平衡計算の難易度を回避するため、各エージェントの動作を人間のサブポピュレーション上の混合体としてモデル化する。
エージェントは、どのグループと整合するかを積極的に戦略的に選択し、解釈可能で行動的な政策クラスを得る。
分析システムレベルの予測を可能にするために,標準的な凹凸ユーティリティ仮定を採用し,社会的に望ましい結果に向けてアライメント目標をシフトするための明示的で行動可能なガイダンスを提供する。
この方法は、RLHFのような既存のアライメントパイプラインの上にアクティブアライメント層として機能する。
ソーシャル・メディア・セッティングでは、LLMの集団、特に推論に基づくモデルでは、一部のサブ集団が全てのLLMエージェントによって無視されるという、政治的排除が示されうることが示され、この手法をドメイン間のマルチエージェントLLMダイナミクスの規制に適用するという約束が示される。
関連論文リスト
- Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making [0.030586855806896043]
大規模言語モデル(LLM)は、社会科学シミュレーションでますます使われている。
本研究では,LLMエージェントが外部誘導と人為的ノイズのレベルが異なる条件下でどのように適応するかを検討するためのプロセス指向評価フレームワークを提案する。
LLMは、デフォルトでは、観察された人間の行動から分岐する安定的で保守的な戦略に収束する。
論文 参考訳(メタデータ) (2025-08-21T18:55:53Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - MF-LLM: Simulating Population Decision Dynamics via a Mean-Field Large Language Model Framework [53.82097200295448]
MF-LLM(Mean-Field LLM)は,まず平均場理論を社会シミュレーションに取り入れる。
MF-LLMは反復過程を通じて個人と人口間の双方向相互作用をモデル化する。
IB-Tuneは、Information Bottleneckの原理にインスパイアされた、新しい微調整手法である。
論文 参考訳(メタデータ) (2025-04-30T12:41:51Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。