論文の概要: Social World Model-Augmented Mechanism Design Policy Learning
- arxiv url: http://arxiv.org/abs/2510.19270v1
- Date: Wed, 22 Oct 2025 06:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.147999
- Title: Social World Model-Augmented Mechanism Design Policy Learning
- Title(参考訳): 社会世界モデルによるメカニズム設計政策学習
- Authors: Xiaoyuan Zhang, Yizhe Huang, Chengdong Ma, Zhixun Chen, Long Ma, Yali Du, Song-Chun Zhu, Yaodong Yang, Xue Feng,
- Abstract要約: SWM-AP (Social World Model-Augmented Mechanism Design Policy Learning) を導入する。
SWM-APは,累積報酬とサンプル効率において,モデルベースおよびモデルフリーのRLベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 58.739456918502704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing adaptive mechanisms to align individual and collective interests remains a central challenge in artificial social intelligence. Existing methods often struggle with modeling heterogeneous agents possessing persistent latent traits (e.g., skills, preferences) and dealing with complex multi-agent system dynamics. These challenges are compounded by the critical need for high sample efficiency due to costly real-world interactions. World Models, by learning to predict environmental dynamics, offer a promising pathway to enhance mechanism design in heterogeneous and complex systems. In this paper, we introduce a novel method named SWM-AP (Social World Model-Augmented Mechanism Design Policy Learning), which learns a social world model hierarchically modeling agents' behavior to enhance mechanism design. Specifically, the social world model infers agents' traits from their interaction trajectories and learns a trait-based model to predict agents' responses to the deployed mechanisms. The mechanism design policy collects extensive training trajectories by interacting with the social world model, while concurrently inferring agents' traits online during real-world interactions to further boost policy learning efficiency. Experiments in diverse settings (tax policy design, team coordination, and facility location) demonstrate that SWM-AP outperforms established model-based and model-free RL baselines in cumulative rewards and sample efficiency.
- Abstract(参考訳): 個人と集団の利益を整合させる適応的なメカニズムを設計することは、人工知能における中心的な課題である。
既存の手法は、永続的な潜伏特性(例えば、スキル、嗜好)を持ち、複雑なマルチエージェントシステムのダイナミクスを扱う異種エージェントのモデリングにしばしば苦労する。
これらの課題は、コストのかかる現実世界の相互作用による高いサンプル効率の必要性によって複雑化されている。
世界モデル(World Models)は、環境力学の予測を学ぶことによって、異種および複雑なシステムにおけるメカニズム設計を強化するための有望な経路を提供する。
本稿では、エージェントの行動を階層的にモデル化し、メカニズム設計を強化するSWM-AP(Social World Model-Augmented Mechanism Design Policy Learning)という新しい手法を提案する。
具体的には、ソーシャルワールドモデルは、エージェントの行動軌跡からエージェントの特性を推測し、エージェントが展開するメカニズムに対する応答を予測するために特性ベースのモデルを学ぶ。
メカニズムデザインポリシーは、ソーシャルワールドモデルと相互作用し、エージェントの特性をリアルタイムでオンラインに推論し、ポリシー学習効率をさらに高めることによって、広範なトレーニングトラジェクトリを収集する。
多様な設定(税制設計、チーム調整、施設配置)の実験では、SWM-APは累積報酬とサンプル効率においてモデルベースおよびモデルフリーのRLベースラインよりも優れていた。
関連論文リスト
- Heterogeneous Adversarial Play in Interactive Environments [15.718025074467453]
Heterogeneous Adversarial Play (HAP) は、教師と学生の交流を最小限の最適化として形式化する対向的な自動カリキュラム学習フレームワークである。
本フレームワークは, 人工エージェントと人体の両方の学習効率を高めるカリキュラムを作成しながら, SOTAベースラインと性能の同等性を実現している。
論文 参考訳(メタデータ) (2025-10-21T08:29:59Z) - ExoPredicator: Learning Abstract Models of Dynamic Worlds for Robot Planning [77.49815848173613]
本研究では,内因性行動とメカニズムの両方について,シンボル的状態表現と因果過程を共同で学習する抽象世界モデルのためのフレームワークを提案する。
シミュレーションされた5つのテーブルトップロボット環境の中で、学習されたモデルは、より多くのオブジェクトとより複雑な目標を持つ保留タスクに一般化した高速な計画を可能にし、幅広いベースラインを上回ります。
論文 参考訳(メタデータ) (2025-09-30T13:44:34Z) - Synchronization Dynamics of Heterogeneous, Collaborative Multi-Agent AI Systems [0.0]
本稿では,同期理論とマルチエージェントAIシステムを橋渡しする新たな学際的枠組みを提案する。
我々は,複雑なタスク実行に関わる異種AIエージェントの集合力学を記述するために,倉本モデルを適用した。
論文 参考訳(メタデータ) (2025-08-17T10:16:41Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Understanding Emergent Behaviours in Multi-Agent Systems with
Evolutionary Game Theory [1.0279748604797907]
本稿では,EGT と ABM の手法を用いて,本グループにおける主な研究方針と課題について要約する。
このブリーフィングは、読者をEGTに基づく問題、結果、展望に敏感にすることを目的としており、機械による心のモデリングにおいて重要である。
いずれの場合も,MAS研究において,グループによって優先される,あるいは優先される重要なオープンな問題について述べる。
論文 参考訳(メタデータ) (2022-05-15T20:01:48Z) - Simulation of emergence in artificial societies: a practical model-based
approach with the EB-DEVS formalism [0.11470070927586014]
本稿では,創発特性のモデリング,シミュレーション,ライブ識別に適した新しいフォーマリズムであるEB-DEVSを適用する。
この研究は、コミュニケーション構造をモデル化するためのアプローチの簡潔さとコンパクトさに関するケーススタディ駆動の証拠を提供する。
論文 参考訳(メタデータ) (2021-10-15T15:55:16Z) - An active inference model of collective intelligence [0.0]
本稿では,局所的な個人レベルの相互作用と集団的知性の関係をシミュレートする最小エージェントモデルを提案する。
その結果, エージェントの局所的最適とグローバル的最適の整合性の相補的なメカニズムを提供することにより, 段階的認知遷移がシステム性能を向上させることが示された。
論文 参考訳(メタデータ) (2021-04-02T14:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。