論文の概要: Structured Imitation Learning of Interactive Policies through Inverse Games
- arxiv url: http://arxiv.org/abs/2511.12848v1
- Date: Mon, 17 Nov 2025 00:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.579737
- Title: Structured Imitation Learning of Interactive Policies through Inverse Games
- Title(参考訳): 逆ゲームによる対話型ポリシーの構造的模倣学習
- Authors: Max M. Sun, Todd Murphey,
- Abstract要約: 生成的単一エージェントポリシー学習とフレキシブルで表現力のあるゲーム理論構造を組み合わせることで,インタラクティブなポリシのための構造化された模倣学習フレームワークを提案する。
合成5エージェント型ソーシャルナビゲーションタスクの予備的な結果から,本手法は非対話的政策を著しく改善し,50のデモのみを用いて,地上の真理対話的政策と相容れない性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative model-based imitation learning methods have recently achieved strong results in learning high-complexity motor skills from human demonstrations. However, imitation learning of interactive policies that coordinate with humans in shared spaces without explicit communication remains challenging, due to the significantly higher behavioral complexity in multi-agent interactions compared to non-interactive tasks. In this work, we introduce a structured imitation learning framework for interactive policies by combining generative single-agent policy learning with a flexible yet expressive game-theoretic structure. Our method explicitly separates learning into two steps: first, we learn individual behavioral patterns from multi-agent demonstrations using standard imitation learning; then, we structurally learn inter-agent dependencies by solving an inverse game problem. Preliminary results in a synthetic 5-agent social navigation task show that our method significantly improves non-interactive policies and performs comparably to the ground truth interactive policy using only 50 demonstrations. These results highlight the potential of structured imitation learning in interactive settings.
- Abstract(参考訳): 生成モデルに基づく模倣学習手法は近年,人間の実演から複雑度の高い運動スキルを学習する上で大きな成果を上げている。
しかし,非対話的タスクに比べて多エージェント間相互作用における行動の複雑さが著しく高いため,共有空間における人間との協調を明示的なコミュニケーションなしで行う対話的ポリシーの模倣学習は依然として困難である。
本研究では,生成的単一エージェントポリシー学習とフレキシブルで表現力のあるゲーム理論構造を組み合わせることで,対話型ポリシのための構造化模倣学習フレームワークを提案する。
本手法は,学習を2つのステップに明確に分離する。まず,標準的な模倣学習を用いて,個々の行動パターンをマルチエージェントのデモから学習し,次に,逆ゲーム問題を解くことによってエージェント間の依存関係を構造的に学習する。
合成5エージェント型ソーシャルナビゲーションタスクの予備的な結果から,本手法は非対話的政策を著しく改善し,50のデモのみを用いて,地上の真理対話的政策と相容れない性能を示した。
これらの結果は,対話型環境における構造化模倣学習の可能性を強調した。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。
我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。
提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文 参考訳(メタデータ) (2024-03-19T15:41:39Z) - Semantic Interactive Learning for Text Classification: A Constructive
Approach for Contextual Interactions [0.0]
本稿では,テキスト領域に対するセマンティック対話学習という新しいインタラクションフレームワークを提案する。
構築的および文脈的フィードバックを学習者に取り入れることで、人間と機械間のよりセマンティックなアライメントを実現するアーキテクチャを見つけることができる。
本研究では,人間の概念的修正を非外挿訓練例に翻訳するのに有効なSemanticPushという手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T08:13:45Z) - A GAN-Like Approach for Physics-Based Imitation Learning and Interactive
Character Control [2.2082422928825136]
物理的にシミュレートされた文字の対話的制御のためのシンプルで直感的なアプローチを提案する。
本研究は,GAN(Generative Adversarial Network)と強化学習に基づく。
我々は,本手法の適用性を,模倣と対話的な制御タスクの範囲で強調する。
論文 参考訳(メタデータ) (2021-05-21T00:03:29Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。