論文の概要: Constitutional Arms Races in the Public Goods Game: Co-Evolving LLM Constitutions Under Cooperation-Defection Pressure
- arxiv url: http://arxiv.org/abs/2605.26448v1
- Date: Tue, 26 May 2026 02:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.570063
- Title: Constitutional Arms Races in the Public Goods Game: Co-Evolving LLM Constitutions Under Cooperation-Defection Pressure
- Title(参考訳): 公共財ゲームにおけるコンスティチューショナルアームレース:協調欠陥圧力下でのLDMコンスティチューションの共進化
- Authors: Ujwal Kumar, Arth Singh, Hershraj Niranjani, Machiko Hirota, Takehiro Takayanagi, Alice Saito, Eiji Kamioka, Phan Xuan Tan,
- Abstract要約: 我々は,パブリックグッズゲーム(PGG)と空間グリッドワールドにまたがる敵国憲法の共進化について研究する。
PGGでは、両派とも約0.78でほぼ平衡に収束し、1.2, 1.5, 2.0, 3.0の検定乗算数 m に対して頑健である。
K = 2 回帰(K = 2 regresses)、K = 5(K = 5)は30世代すべてで強い専門家を擁する。
- 参考スコア(独自算出の注目度): 1.5364755220261122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier LLM agents engage in blackmail, sabotage, and document leaks under goal conflicts in agentic settings, exposing limitations of alignment methods built around single-agent or cooperative assumptions. Recent work shows LLM-guided evolutionary search can discover effective cooperative constitutions, but two properties of the adversarial setting remain uncharacterized: whether the fitness function actually induces adversarial pressure, and whether the LLM mutation operator behaves reliably under adversarial-specialist objectives. We study adversarial constitutional co-evolution (Blue cooperators vs. Red free-riders, 30 generations) across a Public Goods Game (PGG) and a spatial grid-world. Three findings: (1) in the PGG, both factions converge to a near-parity equilibrium at S approximately 0.78, robust across tested multipliers m in {1.2, 1.5, 2.0, 3.0}; (2) in independently scored environments, per-faction scoring leaves outcomes statistically uncoupled, with corr(S_B, S_R) = +0.088, and produces no adversarial pressure; a score-advantage fitness target S_own - S_opp restores it; (3) under pure-adversary fitness, evaluation seed count K controls mode regression: K = 2 regresses, while K = 5 sustains a strong specialist for all 30 generations. Adversarial co-evolution of natural-language constitutions is feasible, but only under coupled fitness and adequate evaluation budget; the evolved Red constitutions serve as interpretable red-team artifacts for testing future cooperative designs.
- Abstract(参考訳): 最前線のLLMエージェントは、エージェント設定における目標競合の下で、脅迫、妨害、文書リークに従事し、単一エージェントまたは協調的な仮定に基づいて構築されたアライメントメソッドの制限を露呈する。
最近の研究は、LLM誘導進化探索が効果的な協調構成を発見することができることを示しているが、適合関数が実際に敵の圧力を誘導するかどうか、LLM突然変異オペレータが敵の特殊目的の下で確実に振る舞うかどうかの2つの特性が相変わらず残っている。
我々は,パブリックグッズゲーム(PGG)と空間グリッドワールドで,敵対的立憲共進化(Blue cooperatives vs. Red-riders,30世代)を研究する。
PGGでは, 両派とも約0.78でほぼ均衡に収束し, テスト乗算数 m を {1.2, 1.5, 2.0, 3.0} で頑健に, 2) 独立に評価された環境下では, 結果が統計的に未結合であり, corr(S_B, S_R) = +0.088 となり, 対向圧を生じない, スコアアドバンテージ適合目標 S_own - S_opp が回復する, (3) 純逆適合下では, シードカウントK 制御モードが回帰する: K = 2 回帰, K = 5 は全30世代にわたって強いスペシャリストを持つ。
自然言語コンスティチューションの敵対的共進化は実現可能であるが、適合性と適切な評価予算が組み合わさったのみであり、進化した赤コンスティチューションは、将来の共同設計をテストするための解釈可能な赤チームアーティファクトとして機能する。
関連論文リスト
- An Interpretable CF-RL-TOPSIS Fusion Model for Skills-Aware Talent Recommendation [0.0]
本研究では,6つのセマンティックプロキシから構築したトランジション対応協調ブランチ,強化スタイルの職業家族バンディット,エントロピー重み付きTOPSISブランチを統合した遅延融合モデルを提案する。
このモデルは、2つのフリーズされたICTタレント履歴ベンチマーク、JobHopとKarrierewegeで、時系列トップ5ランキングとペアのWilcoxonテストを用いて評価されている。
論文 参考訳(メタデータ) (2026-05-22T19:22:58Z) - Breaking $\textit{Winner-Takes-All}$: Cooperative Policy Optimization Improves Diverse LLM Reasoning [53.42577591449649]
グループ協力政策最適化は、トレーニングパラダイムをロールアウト競争からチーム協力へとシフトさせる。
GCPOは独立したロールアウトスコアをチームレベルのクレジット割り当てに置き換える。
チームへの平均的な限界貢献に従って、各ロールアウトに対して、グループチームの報酬を再分配する。
論文 参考訳(メタデータ) (2026-05-12T03:20:24Z) - Internal vs. External: Comparing Deliberation and Evolution for Multi-Agent Constitutional Design [0.0]
3つの社会環境における内的議論と外的進化を比較した。
内部の自己支配取引が構造的応答性のためにピークとなる間、ピークにおいて外部最適化が勝利する。
論文 参考訳(メタデータ) (2026-05-09T19:19:52Z) - GAMBIT: A Three-Mode Benchmark for Adversarial Robustness in Multi-Agent LLM Collectives [48.545980031973556]
GAMBITは、インポスタ検出器を評価するための3つの評価モードと2つの独立したスコアを持つベンチマークである。
ベンチマークには、240の共進化型インポスタ戦略にまたがる27,804のラベル付きインスタンスのデータセットが付属している。
論文 参考訳(メタデータ) (2026-05-09T16:07:23Z) - Beyond Arrow's Impossibility: Fairness as an Emergent Property of Multi-Agent Collaboration [3.4539478661465766]
大規模言語モデルがエージェントとなるにつれて、相互作用と交換によって公平性が生まれることを提案する。
本研究は,2人のエージェントが3回の構造化された議論ラウンドで交渉する,管理された病院トリアージの枠組みを用いて研究する。
論文 参考訳(メタデータ) (2026-04-15T10:34:35Z) - Distilling Deep Reinforcement Learning into Interpretable Fuzzy Rules: An Explainable AI Framework [1.9180507495574395]
深層強化学習(DRL)エージェントは、継続的な制御において顕著なパフォーマンスを達成するが、不透明なままであり、安全クリティカルなドメインへの展開を妨げる。
既存の説明可能性法は、局所的な洞察(SHAP、LIME)のみを提供するか、過度に単純化されたサロゲートを使用し、連続的なダイナミクスを捉えることができない。
本研究では、状態可読パーティショニングのためのK-Meansクラスタリングを通じて、ニューラルポリシーを人間可読IF-THENルールに蒸留するファジィシステム(FCS)を提案する。
説明焦点を測定するルール密度(FRAD)、語彙完全性を検証するファジィ集合被覆(FSC)、行動空間の粒度(Action Space Granularity)の3つの定量化指標が導入された。
論文 参考訳(メタデータ) (2026-02-24T23:53:01Z) - Evolving Interpretable Constitutions for Multi-Agent Simulation [0.0]
我々は,多エージェントLLMシステムにおける行動規範を自動的に発見するフレームワークであるコンスティチューショナル・エボリューショナル・エボリューションを提案する。
生存圧力を伴うグリッドワールドシミュレーションを用いて,個人と集団福祉の緊張関係について検討する。
我々の解釈可能な規則は、規定されるよりもむしろ協調規範を発見できることを示している。
論文 参考訳(メタデータ) (2026-01-31T14:41:43Z) - GuardFed: A Trustworthy Federated Learning Framework Against Dual-Facet Attacks [56.983319121358555]
フェデレートラーニング(FL)は、プライバシ保護のための協調モデルトレーニングを可能にするが、敵の行動に弱いままである。
本稿では,予測精度とグループフェアネスを同時に損なう新たな脅威モデルであるデュアル顔攻撃(DFA)を紹介する。
本稿では,少量のクリーンサーバデータを用いて,公正な参照モデルを維持する自己適応型防衛フレームワークであるGuardFedを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:02:45Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。