論文の概要: Structuring Collective Action with LLM-Guided Evolution: From Ill-Structured Problems to Executable Heuristics
- arxiv url: http://arxiv.org/abs/2509.20412v1
- Date: Wed, 24 Sep 2025 08:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.513905
- Title: Structuring Collective Action with LLM-Guided Evolution: From Ill-Structured Problems to Executable Heuristics
- Title(参考訳): LLM誘導進化による集団行動の構造化:Ill-Structured問題から実行可能ヒューリスティックスへ
- Authors: Kevin Bradley Dsouza, Graham Alexander Watt, Yuri Leonenko, Juan Moreno-Cruz,
- Abstract要約: 個別インセンティブと集合目標の整合性を必要とする集団行動問題は、Ill-Structured Problems(ISP)の古典的な例である。
本稿では,この大域的複雑性を,各エージェントに対して抽出可能なWSP(Well-Structured Problem)に変換する計算フレームワークECHO-MIMICを提案する。
ECHO-MIMICは、アルゴリズム発見と調整されたコミュニケーションを結合することにより、集団行動の認知的負担を単純なエージェントレベルの命令セットに変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Collective action problems, which require aligning individual incentives with collective goals, are classic examples of Ill-Structured Problems (ISPs). For an individual agent, the causal links between local actions and global outcomes are unclear, stakeholder objectives often conflict, and no single, clear algorithm can bridge micro-level choices with macro-level welfare. We present ECHO-MIMIC, a computational framework that converts this global complexity into a tractable, Well-Structured Problem (WSP) for each agent by discovering compact, executable heuristics and persuasive rationales. The framework operates in two stages: ECHO (Evolutionary Crafting of Heuristics from Outcomes) evolves snippets of Python code that encode candidate behavioral policies, while MIMIC (Mechanism Inference & Messaging for Individual-to-Collective Alignment) evolves companion natural language messages that motivate agents to adopt those policies. Both phases employ a large-language-model-driven evolutionary search: the LLM proposes diverse and context-aware code or text variants, while population-level selection retains those that maximize collective performance in a simulated environment. We demonstrate this framework on a canonical ISP in agricultural landscape management, where local farming decisions impact global ecological connectivity. Results show that ECHO-MIMIC discovers high-performing heuristics compared to baselines and crafts tailored messages that successfully align simulated farmer behavior with landscape-level ecological goals. By coupling algorithmic rule discovery with tailored communication, ECHO-MIMIC transforms the cognitive burden of collective action into a simple set of agent-level instructions, making previously ill-structured problems solvable in practice and opening a new path toward scalable, adaptive policy design.
- Abstract(参考訳): 集団行動問題は、個人インセンティブと集団目標の整合性を必要とするものであり、Ill-Structured Problems(ISP)の古典的な例である。
個々のエージェントにとって、局所的な行動とグローバルな成果の間の因果関係は不明確であり、ステークホルダーの目的はしばしば矛盾し、単一で明確なアルゴリズムがマクロレベルの福祉でマイクロレベルの選択を橋渡しできない。
我々は,この大域的複雑性を,コンパクトで実行可能なヒューリスティックと説得力のある理性を発見することによって,各エージェントに対して,抽出可能なWSP(Well-Structured Problem)に変換する計算フレームワークECHO-MIMICを提案する。
ECHO(Evolutionary Crafting of Heuristics from Outcomes)は、候補の行動ポリシーを符号化するPythonコードのスニペットを進化させ、MIMIC(Mechanism Inference & Messaging for individual-to-Collective Alignment)は、エージェントがこれらのポリシーを採用する動機となる自然言語メッセージを進化させる。
LLMは多様でコンテキスト対応のコードやテキストの変種を提案しているが、人口レベルの選択はシミュレーション環境での集団的パフォーマンスを最大化している。
我々は,この枠組みを農業景観管理における標準ISP上で実証し,地域農業の決定が地球環境への接続に影響を及ぼすことを示した。
以上の結果から,ECHO-MIMICは,シミュレートされた農家の行動と景観レベルの生態的目標との整合を成功させるような,基準線や工芸品に適したメッセージと比較して高いパフォーマンスのヒューリスティックを見出すことができた。
ECHO-MIMICは、アルゴリズムによるルール発見と調整されたコミュニケーションを結合することにより、集団行動の認知的負担を単純なエージェントレベルの命令に変換し、以前は構造化されていなかった問題を実際に解決し、スケーラブルで適応的なポリシー設計への新たな道を開く。
関連論文リスト
- LUCIFER: Language Understanding and Context-Infused Framework for Exploration and Behavior Refinement [5.522800137785975]
動的環境において、既存の環境知識の急速な陳腐化は、エージェントの内部モデルと運用コンテキストの間にギャップを生じさせる。
本稿では、階層的な意思決定アーキテクチャと強化学習を統合したドメインに依存しないフレームワークLUCIFERを提案する。
LUCIFERは探索効率と意思決定品質を向上し、平坦で目標条件の政策よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-09T16:30:05Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - LLM-POET: Evolving Complex Environments using Large Language Models [0.0]
LLM-POETは,Large Language Model (LLM) を用いて環境の生成と変更を行うPOETアルゴリズムの修正である。
その結果, LLMは多様な環境を生産できるだけでなく, 拡張ポエットで環境生成に使用されるCPPNと比較して, 共進化の性能向上率は34%増加した。
論文 参考訳(メタデータ) (2024-06-07T06:23:07Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Provably Efficient Causal Model-Based Reinforcement Learning for
Systematic Generalization [30.456180468318305]
逐次的意思決定設定では、エージェントは、おそらく無限の、大きな環境の集合に対して体系的な一般化を達成することを目的としている。
本稿では,因果的視点を用いた体系的一般化の抽出可能な定式化について述べる。
特定の構造的仮定の下では、望まざる計画誤差を避けられない準最適項まで保証する単純な学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-14T08:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。