論文の概要: DIML: Differentiable Inverse Mechanism Learning from Behaviors of Multi-Agent Learning Trajectories
- arxiv url: http://arxiv.org/abs/2601.17678v1
- Date: Sun, 25 Jan 2026 03:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.202629
- Title: DIML: Differentiable Inverse Mechanism Learning from Behaviors of Multi-Agent Learning Trajectories
- Title(参考訳): DIML:多エージェント学習軌跡の挙動から学習可能な逆メカニズム
- Authors: Zhiyu An, Wan Du,
- Abstract要約: 本研究では,未知のインセンティブ生成機構を,観測された戦略的相互作用トレースから回復する逆メカニズム学習について検討する。
逆ゲーム理論やマルチエージェント逆強化学習とは異なり、ターゲットは非構造化メカニズムを含む。
本稿では,多エージェント学習のモデルを用いて,確率に基づくフレームワークであるDIMLを提案する。
- 参考スコア(独自算出の注目度): 7.764532811300023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study inverse mechanism learning: recovering an unknown incentive-generating mechanism from observed strategic interaction traces of self-interested learning agents. Unlike inverse game theory and multi-agent inverse reinforcement learning, which typically infer utility/reward parameters inside a structured mechanism, our target includes unstructured mechanism -- a (possibly neural) mapping from joint actions to per-agent payoffs. Unlike differentiable mechanism design, which optimizes mechanisms forward, we infer mechanisms from behavior in an observational setting. We propose DIML, a likelihood-based framework that differentiates through a model of multi-agent learning dynamics and uses the candidate mechanism to generate counterfactual payoffs needed to predict observed actions. We establish identifiability of payoff differences under a conditional logit response model and prove statistical consistency of maximum likelihood estimation under standard regularity conditions. We evaluate DIML with simulated interactions of learning agents across unstructured neural mechanisms, congestion tolling, public goods subsidies, and large-scale anonymous games. DIML reliably recovers identifiable incentive differences and supports counterfactual prediction, where its performance rivals tabular enumeration oracle in small environments and its convergence scales to large, hundred-participant environments. Code to reproduce our experiments is open-sourced.
- Abstract(参考訳): 自己関心学習エージェントの戦略的相互作用トレースから未知のインセンティブ生成機構を回復する逆メカニズム学習について検討する。
逆ゲーム理論や多エージェント逆強化学習とは違い、通常、構造的メカニズム内のユーティリティ/リワードパラメータを推論するが、我々のターゲットは、関節アクションからエージェントごとのペイオフへの(おそらく神経的な)マッピングを含む。
機構を前方に最適化する微分可能な機構設計とは異なり,観測条件下での挙動から機構を推定する。
そこで我々は,多エージェント学習のモデルを通じて差別化を行う可能性ベースのフレームワークであるDIMLを提案し,その候補メカニズムを用いて,観測された行動を予測するのに必要な対実的な支払いを生成する。
我々は,条件付きロジット応答モデルの下でのペイオフ差の同定可能性を確立し,標準正則条件下での最大推定値の統計的整合性を証明する。
筆者らは,非構造化神経機構,混雑トーリング,公共財助成金,大規模匿名ゲームにおける学習エージェントのシミュレーションによるDIMLの評価を行った。
DIMLは、識別可能なインセンティブの違いを確実に回復し、そのパフォーマンスが小さな環境における表列挙オラクルと競合し、その収束が大規模で100人規模の環境にスケールする、反ファクト的予測をサポートする。
私たちの実験を再現するコードはオープンソースです。
関連論文リスト
- Social World Model-Augmented Mechanism Design Policy Learning [58.739456918502704]
SWM-AP (Social World Model-Augmented Mechanism Design Policy Learning) を導入する。
SWM-APは,累積報酬とサンプル効率において,モデルベースおよびモデルフリーのRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-10-22T06:01:21Z) - Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - Large Language Models for Multi-Facility Location Mechanism Design [16.88708405619343]
深層学習モデルは、マルチファシリティロケーションのための戦略防御メカニズムの代替として提案されている。
LLMMechと呼ばれる新しいアプローチを導入し、大きな言語モデルを進化のフレームワークに組み込むことにより、これらの制限に対処する。
実験の結果, LLM生成機構は, 既存の手作りベースラインやディープラーニングモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-03-12T16:49:56Z) - Learning Neural Strategy-Proof Matching Mechanism from Examples [24.15688619889342]
本稿では,常に戦略保護性を満足し,任意の数のエージェントに適用可能な新しいマッチング機構のファミリーを提案し,エージェントの公開コンテキスト情報を扱う。
提案手法は, 整合性を満足しながら, 整合性を学習するための実験である。
提案手法は,マッチング予測における基準値よりも優れており,マッチング結果の良さを示す指標がいくつかあることを実証した。
論文 参考訳(メタデータ) (2024-10-25T08:34:25Z) - Compete and Compose: Learning Independent Mechanisms for Modular World Models [57.94106862271727]
異なる環境における再利用可能な独立したメカニズムを活用するモジュール型世界モデルであるCOMETを提案する。
COMETは、コンペティションとコンポジションという2段階のプロセスを通じて、動的に変化する複数の環境でトレーニングされている。
COMETは,従来のファインタニング手法に比べて,サンプル効率が向上し,多様なオブジェクト数で新しい環境に適応できることを示す。
論文 参考訳(メタデータ) (2024-04-23T15:03:37Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Learning Robust Models Using The Principle of Independent Causal
Mechanisms [26.79262903241044]
ICMの原理から目的関数を導出する勾配学習フレームワークを提案する。
理論的、実験的に、このフレームワークで訓練されたニューラルネットワークは、環境間で不変な関係に重点を置いていることを示す。
論文 参考訳(メタデータ) (2020-10-14T15:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。