論文の概要: Symmetry-Guided Multi-Agent Inverse Reinforcement Learnin
- arxiv url: http://arxiv.org/abs/2509.08257v1
- Date: Wed, 10 Sep 2025 03:28:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.298582
- Title: Symmetry-Guided Multi-Agent Inverse Reinforcement Learnin
- Title(参考訳): 対称性誘導多エージェント逆強化学習
- Authors: Yongkai Tian, Yirong Qi, Xin Yu, Wenjun Wu, Jie Luo,
- Abstract要約: 逆強化学習(IRL)は、専門家によるデモンストレーションから暗黙の報酬関数を推定することでこの問題に対処する。
既存の手法は、報酬関数を正確に回復するために、大量の専門家によるデモンストレーションに大きく依存している。
本稿では,既存のマルチエージェント逆IRLアルゴリズムに対称性を統合する普遍的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.021166929646718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In robotic systems, the performance of reinforcement learning depends on the rationality of predefined reward functions. However, manually designed reward functions often lead to policy failures due to inaccuracies. Inverse Reinforcement Learning (IRL) addresses this problem by inferring implicit reward functions from expert demonstrations. Nevertheless, existing methods rely heavily on large amounts of expert demonstrations to accurately recover the reward function. The high cost of collecting expert demonstrations in robotic applications, particularly in multi-robot systems, severely hinders the practical deployment of IRL. Consequently, improving sample efficiency has emerged as a critical challenge in multi-agent inverse reinforcement learning (MIRL). Inspired by the symmetry inherent in multi-agent systems, this work theoretically demonstrates that leveraging symmetry enables the recovery of more accurate reward functions. Building upon this insight, we propose a universal framework that integrates symmetry into existing multi-agent adversarial IRL algorithms, thereby significantly enhancing sample efficiency. Experimental results from multiple challenging tasks have demonstrated the effectiveness of this framework. Further validation in physical multi-robot systems has shown the practicality of our method.
- Abstract(参考訳): ロボットシステムでは、強化学習の性能は、予め定義された報酬関数の合理性に依存する。
しかし、手動で設計された報酬関数は、しばしば不正確さによる政策の失敗につながる。
逆強化学習(IRL)は、専門家によるデモンストレーションから暗黙の報酬関数を推定することでこの問題に対処する。
それでも、既存の手法は報酬関数を正確に回復するために大量の専門家によるデモンストレーションに大きく依存している。
ロボットアプリケーション、特にマルチロボットシステムにおける専門家によるデモンストレーションの収集コストは、IRLの実践的な展開を著しく妨げている。
その結果,多エージェント逆強化学習(MIRL)において,サンプル効率の向上が重要な課題となっている。
マルチエージェントシステムに固有の対称性にインスパイアされたこの研究は、対称性を活用することでより正確な報酬関数の回復を可能にすることを理論的に実証する。
この知見に基づいて,既存のマルチエージェント逆IRLアルゴリズムに対称性を統合し,サンプル効率を大幅に向上させる普遍的枠組みを提案する。
複数の課題による実験結果から,本フレームワークの有効性が示された。
物理マルチロボットシステムのさらなる検証により,本手法の実用性が確認された。
関連論文リスト
- Attention-Augmented Inverse Reinforcement Learning with Graph Convolutions for Multi-Agent Task Allocation [0.29998889086656577]
マルチエージェントタスクアロケーション(MATA)は,協調型マルチエージェントシステムにおいて重要な役割を担う。
報酬関数学習とタスク実行効率を高めるために,逆強化学習(IRL)に基づくフレームワークを提案する。
提案手法が広く用いられているマルチエージェント強化学習(MARL)アルゴリズムよりも優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2025-04-07T13:14:45Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。