論文の概要: Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs
- arxiv url: http://arxiv.org/abs/2603.10476v1
- Date: Wed, 11 Mar 2026 06:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.817329
- Title: Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs
- Title(参考訳): 交渉の学習: LLMにおける集合的価値アライメントのためのマルチエージェント検討
- Authors: Panatchakorn Anantaprayoon, Nataliia Babina, Nima Asgharbeygi, Jad Tarifi,
- Abstract要約: 本研究は,大規模言語モデルを集合エージェント(CA)に整合させるマルチエージェント交渉に基づくアライメントフレームワークを提案する。
スケーラブルなトレーニングを実現するために、同一のLLMの2つのセルフプレイインスタンスは、反対のペルソナを割り当て、構造化されたターンベースの対話を行い、相互に有益なソリューションを合成する。
実験結果から, 単一エージェントベースラインに匹敵するCAアライメントを実現するとともに, 汎用言語能力を低下させることなく, コンフリクト分解性能を大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 0.41998444721319217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The alignment of large language models (LLMs) has progressed substantially in single-agent settings through paradigms such as RLHF and Constitutional AI, with recent work exploring scalable alternatives such as RLAIF and evolving alignment objectives. However, these approaches remain limited in multi-stakeholder settings, where conflicting values arise and deliberative negotiation capabilities are required. This work proposes a multi-agent negotiation-based alignment framework that aligns LLMs to Collective Agency (CA)-an existing alignment objective introduced to promote the continual expansion of agency-while simultaneously improving conflict-resolution capability. To enable scalable training, two self-play instances of the same LLM, assigned opposing personas, engage in structured turn-based dialogue to synthesize mutually beneficial solutions. We generate synthetic moral-dilemma prompts and conflicting persona pairs, and optimize the policy via RLAIF using GRPO with an external LLM reward model. While rewards are computed from CA scores assigned to the final completion, gradients are applied to dialogue tokens to directly improve deliberative interaction dynamics. Experiments show that the resulting model achieves CA alignment comparable to a single-agent baseline while substantially improving conflict-resolution performance without degrading general language capabilities. These results suggest that negotiation-driven deliberation training provides a practical path toward LLMs that better support collective decision-making in value-conflict scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)のアライメントは、RLHFやコンスティチューショナルAIといったパラダイムを通じて、単一エージェント設定で大幅に進展している。
しかし、これらのアプローチは、競合する値が発生し、熟考交渉能力を必要とするマルチステークホルダー設定において制限され続けている。
本研究は, LLM を Collective Agency (CA) にアライメントする多エージェント交渉に基づくアライメントフレームワークを提案する。
スケーラブルなトレーニングを実現するために、同一のLLMの2つのセルフプレイインスタンスは、反対のペルソナを割り当て、構造化されたターンベースの対話を行い、相互に有益なソリューションを合成する。
我々は、合成道徳ジレンマプロンプトと矛盾するペルソナペアを生成し、GRPOと外部LLM報酬モデルを用いてRLAIFを介してポリシーを最適化する。
最終完了に割り当てられたCAスコアから報酬が計算される一方で、対話トークンに勾配を適用して、議論的相互作用のダイナミクスを直接改善する。
実験結果から, 単一エージェントベースラインに匹敵するCAアライメントを実現するとともに, 汎用言語能力を低下させることなく, コンフリクト分解性能を大幅に向上することがわかった。
これらの結果から,交渉主導の熟考訓練は,価値相反シナリオにおける集合的意思決定を支援するLLMへの実践的な道のりを示唆している。
関連論文リスト
- GameTalk: Training LLMs for Strategic Conversation [51.29670609281524]
マルチターンインタラクションによる戦略的意思決定のために,LLMをトレーニングするフレームワークであるtextbfGameTalkを紹介した。
シングルターンの目的や静的アクション予測に焦点を当てた以前の作業とは異なり、私たちはLLMをトレーニングして、全会話にわたってグローバルな目的を最適化します。
本手法は, 推論, コーディネート, 対戦型モデリングの異なる側面を強調するために設計された, ますます複雑なゲーム群に対して評価する。
論文 参考訳(メタデータ) (2026-01-22T19:18:39Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs [23.590034731179824]
我々は、認知モードを構造的に分離するコラボレーションのための原則的パラダイムである、ロールオーケストレーション(Maestro)を提示する。
Maestroは多様な探索のために並列実行エージェントの集合を使用し、収束的で評価的な合成のために特別中央エージェントを使用する。
数学的推論と一般的な問題解決ベンチマークの実験により、マエストロとCLPOは、既存の最先端のマルチエージェントアプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-11-08T21:01:27Z) - Interactive Learning for LLM Reasoning [31.453846641515472]
本稿では,大規模言語モデルの独立した問題解決能力を高めるために,マルチエージェントインタラクションが有効かどうかを検討する。
動的インタラクションと知覚を統合した新しいコラーニングフレームワークであるIRRを紹介する。
ILRはシングルエージェント学習を一貫して上回り、最強のベースラインよりも最大5%向上した。
論文 参考訳(メタデータ) (2025-09-30T14:21:31Z) - Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs [1.090218572228214]
本研究では,LLMをベースとしたReActフレームワークの性能向上のための構造化例の可能性について検討した。
本稿では、最適ゴールパス(G型)、情報ノードパス(E型)、ステップバイステップの最適決定シーケンス(L型)の3つのカテゴリの例を生成する、構造化された解処理パイプラインを提案する。
L型の例は、明確化要求と全体的なアクションステップをわずかに削減するが、一貫性のある改善は得られない。
論文 参考訳(メタデータ) (2025-08-20T09:36:53Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [54.48979740613828]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - Societal Alignment Frameworks Can Improve LLM Alignment [50.97852062232431]
LLMアライメントの改善には、社会的アライメントフレームワークからの洞察を取り入れる必要がある、と我々は主張する。
次に,LLMアライメントにおける社会的アライメント・フレームワークの不確実性について検討する。
我々は、LLMアライメントに関する代替的な見解を提供し、その目的の未定義の性質を機会としてフレーミングすることで、議論を終わらせる。
論文 参考訳(メタデータ) (2025-02-27T13:26:07Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。