論文の概要: Evolving Interpretable Constitutions for Multi-Agent Simulation
- arxiv url: http://arxiv.org/abs/2602.00755v1
- Date: Sat, 31 Jan 2026 14:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.379678
- Title: Evolving Interpretable Constitutions for Multi-Agent Simulation
- Title(参考訳): マルチエージェントシミュレーションのための解釈可能な構成の進化
- Authors: Ujwal Kumar, Alice Saito, Hershraj Niranjani, Rayan Yessou, Phan Xuan Tan,
- Abstract要約: 我々は,多エージェントLLMシステムにおける行動規範を自動的に発見するフレームワークであるコンスティチューショナル・エボリューショナル・エボリューションを提案する。
生存圧力を伴うグリッドワールドシミュレーションを用いて,個人と集団福祉の緊張関係について検討する。
我々の解釈可能な規則は、規定されるよりもむしろ協調規範を発見できることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constitutional AI has focused on single-model alignment using fixed principles. However, multi-agent systems create novel alignment challenges through emergent social dynamics. We present Constitutional Evolution, a framework for automatically discovering behavioral norms in multi-agent LLM systems. Using a grid-world simulation with survival pressure, we study the tension between individual and collective welfare, quantified via a Societal Stability Score S in [0,1] that combines productivity, survival, and conflict metrics. Adversarial constitutions lead to societal collapse (S= 0), while vague prosocial principles ("be helpful, harmless, honest") produce inconsistent coordination (S = 0.249). Even constitutions designed by Claude 4.5 Opus with explicit knowledge of the objective achieve only moderate performance (S= 0.332). Using LLM-driven genetic programming with multi-island evolution, we evolve constitutions maximizing social welfare without explicit guidance toward cooperation. The evolved constitution C* achieves S = 0.556 +/- 0.008 (123% higher than human-designed baselines, N = 10), eliminates conflict, and discovers that minimizing communication (0.9% vs 62.2% social actions) outperforms verbose coordination. Our interpretable rules demonstrate that cooperative norms can be discovered rather than prescribed.
- Abstract(参考訳): コンスティチューショナルAIは、固定原則を使用した単一モデルアライメントに重点を置いている。
しかし、マルチエージェントシステムは創発的な社会力学を通して新しいアライメントの課題を生み出す。
我々は,多エージェントLLMシステムにおける行動規範を自動的に発見するフレームワークであるコンスティチューショナル・エボリューショナル・エボリューションを提案する。
生存圧力を用いたグリッドワールドシミュレーションを用いて, 生産性, 生存率, コンフリクトの指標を組み合わせた社会安定スコアSを用いて, 個人と集団の福祉の緊張関係について検討した。
対立する構成は社会的な崩壊(S=0)につながるが、曖昧な社会的な原則(無害、誠実)は矛盾する調整(S = 0.249)をもたらす。
クロード4.5オプスが設計したコンスティチューションでさえ、目的の明示的な知識は適度なパフォーマンスしか達成していない(S=0.332)。
LLMによる遺伝的プログラミングを多島間進化に応用し,社会福祉を最大化する構成を進化させる。
進化した憲法C*は、S = 0.556 +/- 0.008(人間設計のベースラインよりも123%高い、N = 10)を達成し、対立を排除し、コミュニケーションを最小限に抑える(0.9%対62.2%の社会的行動)ことが冗長な調整より優れていることを発見した。
我々の解釈可能な規則は、規定されるよりもむしろ協調規範を発見できることを示している。
関連論文リスト
- Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - The Role of Social Learning and Collective Norm Formation in Fostering Cooperation in LLM Multi-Agent Systems [13.628908663240564]
我々は、明確な報酬信号を取り除き、文化進化機構を組み込むCPRシミュレーションフレームワークを導入する。
環境および社会的初期化のグリッドである2時間2ドルの標準的進化について検討する。
本研究は,協調の維持と規範形成における系統的モデルの違いを明らかにする。
論文 参考訳(メタデータ) (2025-10-16T07:59:31Z) - From Literal to Liberal: A Meta-Prompting Framework for Eliciting Human-Aligned Exception Handling in Large Language Models [0.3946915822335988]
エージェントAIシステムの推論エンジンとして,大規模言語モデル(LLM)がますます普及している。
明確な規則に固執し、人間の常識や意図に反する決定を下す。
本稿では,LLMにおけるヒューマンアラインな例外処理をゼロショット方式で導入するルール・インテント・ディチネンション(RID)フレームワークを紹介する。
論文 参考訳(メタデータ) (2025-10-14T16:42:52Z) - DisCo: Reinforcement with Diversity Constraints for Multi-Human Generation [60.741022906593685]
DisCoは、マルチヒューマン世代におけるアイデンティティの多様性を直接最適化する最初のRLベースのフレームワークである。
グループ相対ポリシー最適化によるDisCo微粒フローマッチングモデル。
DiverseHumans Testsetでは、DisCoは98.6のユニークな顔の精度とほぼ完璧なグローバルアイデンティティスプレッドを実現している。
論文 参考訳(メタデータ) (2025-10-01T19:28:51Z) - Navigating the Synchrony-Stability Frontier in Adaptive Chatbots [0.0]
コア設計の緊張を明示する計算評価フレームワークを提案する。
人間のログデータセットに対する明示的な適応ポリシーをシミュレートし比較する。
限定されたポリシーは、同期に控えめなコストで、安定性の大幅な向上を実現している。
我々は、フロンティアポリシーが命令のチャーンを減らし、ジャリングレジスタのフリップを減らしたことを示す「素早い正当性」を定量化する。
論文 参考訳(メタデータ) (2025-09-30T22:50:30Z) - Personalized Constitutionally-Aligned Agentic Superego: Secure AI Behavior Aligned to Diverse Human Values [0.6640968473398455]
スーパーエージェントがユーザー選択型「クリードコンスティチューション」を参考にAIプランニングを主導
リアルタイムコンプライアンス執行機関は、これらの憲法に対する計画を検証する。
システムは最大98.3%の有害スコアの減少とほぼ完全な拒絶率を達成する。
論文 参考訳(メタデータ) (2025-06-08T20:31:26Z) - EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
論文 参考訳(メタデータ) (2025-02-27T19:54:16Z) - Agent Alignment in Evolving Social Norms [65.45423591744434]
本稿では,エージェント進化とアライメントのための進化的フレームワークであるEvolutionaryAgentを提案する。
社会規範が継続的に進化する環境では、エージェントは現在の社会規範に適応し、生存と増殖の確率が高くなる。
進化的エージェントは、一般的なタスクにおいてその能力を維持しながら、進化する社会規範と徐々に整合できることを示す。
論文 参考訳(メタデータ) (2024-01-09T15:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。