論文の概要: Symmetry-Guided Multi-Agent Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.08257v2
- Date: Thu, 11 Sep 2025 02:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 11:47:11.89911
- Title: Symmetry-Guided Multi-Agent Inverse Reinforcement Learning
- Title(参考訳): 対称性誘導多エージェント逆強化学習
- Authors: Yongkai Tian, Yirong Qi, Xin Yu, Wenjun Wu, Jie Luo,
- Abstract要約: 逆強化学習(IRL)は、専門家によるデモンストレーションから暗黙の報酬関数を推定することでこの問題に対処する。
既存の手法は、報酬関数を正確に回復するために、大量の専門家によるデモンストレーションに大きく依存している。
本稿では,既存のマルチエージェント逆IRLアルゴリズムに対称性を統合する普遍的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.021166929646718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In robotic systems, the performance of reinforcement learning depends on the rationality of predefined reward functions. However, manually designed reward functions often lead to policy failures due to inaccuracies. Inverse Reinforcement Learning (IRL) addresses this problem by inferring implicit reward functions from expert demonstrations. Nevertheless, existing methods rely heavily on large amounts of expert demonstrations to accurately recover the reward function. The high cost of collecting expert demonstrations in robotic applications, particularly in multi-robot systems, severely hinders the practical deployment of IRL. Consequently, improving sample efficiency has emerged as a critical challenge in multi-agent inverse reinforcement learning (MIRL). Inspired by the symmetry inherent in multi-agent systems, this work theoretically demonstrates that leveraging symmetry enables the recovery of more accurate reward functions. Building upon this insight, we propose a universal framework that integrates symmetry into existing multi-agent adversarial IRL algorithms, thereby significantly enhancing sample efficiency. Experimental results from multiple challenging tasks have demonstrated the effectiveness of this framework. Further validation in physical multi-robot systems has shown the practicality of our method.
- Abstract(参考訳): ロボットシステムでは、強化学習の性能は、予め定義された報酬関数の合理性に依存する。
しかし、手動で設計された報酬関数は、しばしば不正確さによる政策の失敗につながる。
逆強化学習(IRL)は、専門家によるデモンストレーションから暗黙の報酬関数を推定することでこの問題に対処する。
それでも、既存の手法は報酬関数を正確に回復するために大量の専門家によるデモンストレーションに大きく依存している。
ロボットアプリケーション、特にマルチロボットシステムにおける専門家によるデモンストレーションの収集コストは、IRLの実践的な展開を著しく妨げている。
その結果,多エージェント逆強化学習(MIRL)において,サンプル効率の向上が重要な課題となっている。
マルチエージェントシステムに固有の対称性にインスパイアされたこの研究は、対称性を活用することでより正確な報酬関数の回復を可能にすることを理論的に実証する。
この知見に基づいて,既存のマルチエージェント逆IRLアルゴリズムに対称性を統合し,サンプル効率を大幅に向上させる普遍的枠組みを提案する。
複数の課題による実験結果から,本フレームワークの有効性が示された。
物理マルチロボットシステムのさらなる検証により,本手法の実用性が確認された。
関連論文リスト
- Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization [52.74762030521324]
本稿では,観察行動から報酬関数を学習するための新しいアルゴリズムを提案する。
我々は,アルゴリズムの信頼性とサンプル効率について,強力な理論的保証を提供する。
論文 参考訳(メタデータ) (2026-01-19T04:12:51Z) - Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。
本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。
タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文 参考訳(メタデータ) (2025-07-22T09:26:00Z) - Next-Future: Sample-Efficient Policy Learning for Robotic-Arm Tasks [6.991281327290525]
我々は,単一ステップ遷移に対する報酬に焦点を当てた新しいリプレイ戦略「Next-Future」を紹介する。
このアプローチは、マルチゴールマルコフ決定過程の学習におけるサンプル効率と精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-15T14:45:51Z) - Attention-Augmented Inverse Reinforcement Learning with Graph Convolutions for Multi-Agent Task Allocation [0.29998889086656577]
マルチエージェントタスクアロケーション(MATA)は,協調型マルチエージェントシステムにおいて重要な役割を担う。
報酬関数学習とタスク実行効率を高めるために,逆強化学習(IRL)に基づくフレームワークを提案する。
提案手法が広く用いられているマルチエージェント強化学習(MARL)アルゴリズムよりも優れていることを示す実験を行った。
論文 参考訳(メタデータ) (2025-04-07T13:14:45Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された多様な実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z) - Balance Between Efficient and Effective Learning: Dense2Sparse Reward
Shaping for Robot Manipulation with Environment Uncertainty [14.178202899299267]
本稿では,Dense2Sparseという,シンプルだが強力な報酬形成手法を提案する。
これは、密集報酬の高速収束とスパース報酬のノイズ分離の利点を組み合わせて、学習効率と効果のバランスをとる。
実験の結果,Dense2Sparse法は,スタンドアローンの高密度報酬やスパース報酬に比べて高い期待報酬を得た。
論文 参考訳(メタデータ) (2020-03-05T16:10:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。