論文の概要: SPLASH! Sample-efficient Preference-based inverse reinforcement learning for Long-horizon Adversarial tasks from Suboptimal Hierarchical demonstrations
- arxiv url: http://arxiv.org/abs/2507.08707v1
- Date: Fri, 11 Jul 2025 16:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.416107
- Title: SPLASH! Sample-efficient Preference-based inverse reinforcement learning for Long-horizon Adversarial tasks from Suboptimal Hierarchical demonstrations
- Title(参考訳): SPLASH! 主観的選好に基づく逆強化学習による準最適階層型実演からの長軸対応課題の学習
- Authors: Peter Crowley, Zachary Serlin, Tyler Paine, Makai Mann, Michael Benjamin, Calin Belta,
- Abstract要約: 逆強化学習(Inverse Reinforcement Learning)は、人間のデモンストレーションから複雑なロボットタスクを学ぶための強力なパラダイムである。
我々は,SPLASH(Suboptimal Hierarchical Demos)による長軸適応タスクに対する優先度に基づく逆強化学習を導入する。
シミュレーションにおいて,SPLASHを海中捕捉・フラッグタスクで実証的に検証し,自律表面車両におけるシミュレート・トゥ・リアル翻訳実験による実世界の適用性を実証した。
- 参考スコア(独自算出の注目度): 1.4793622723642046
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Inverse Reinforcement Learning (IRL) presents a powerful paradigm for learning complex robotic tasks from human demonstrations. However, most approaches make the assumption that expert demonstrations are available, which is often not the case. Those that allow for suboptimality in the demonstrations are not designed for long-horizon goals or adversarial tasks. Many desirable robot capabilities fall into one or both of these categories, thus highlighting a critical shortcoming in the ability of IRL to produce field-ready robotic agents. We introduce Sample-efficient Preference-based inverse reinforcement learning for Long-horizon Adversarial tasks from Suboptimal Hierarchical demonstrations (SPLASH), which advances the state-of-the-art in learning from suboptimal demonstrations to long-horizon and adversarial settings. We empirically validate SPLASH on a maritime capture-the-flag task in simulation, and demonstrate real-world applicability with sim-to-real translation experiments on autonomous unmanned surface vehicles. We show that our proposed methods allow SPLASH to significantly outperform the state-of-the-art in reward learning from suboptimal demonstrations.
- Abstract(参考訳): 逆強化学習(IRL)は、人間の実演から複雑なロボットタスクを学ぶための強力なパラダイムである。
しかし、ほとんどのアプローチは専門家によるデモンストレーションが利用可能であると仮定している。
デモにおける準最適性を認めるものは、長期の目標や敵のタスクのために設計されていない。
多くの望ましいロボットの能力は、これらのカテゴリーの1つまたは両方に該当するため、IRLがフィールド対応のロボットエージェントを生産する能力において重大な欠点を浮き彫りにしている。
本稿では,SPLASH(Suboptimal Hierarchical Demos)による長軸適応タスクのサンプル効率向上に基づく逆強化学習について紹介する。
シミュレーションにおいて,SPLASHを海中捕捉・フラッグタスクで実証的に検証し,自律無人表面車両におけるシミュレート・トゥ・リアル翻訳実験による実世界の適用性を実証した。
提案手法は,SPLASHが準最適実験から得られる報酬学習において,最先端の成果を著しく上回ることを示す。
関連論文リスト
- Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。
Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15~35%以上の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2025-03-05T17:58:16Z) - Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-28T01:25:37Z) - Toward Information Theoretic Active Inverse Reinforcement Learning [0.21990652930491852]
逆強化学習(IRL)は、実証から未知の報酬を推測するための有望なアプローチを提供する。
Active IRLはこの課題に対処し、人間のデモンストレーションにおいて最も有益なシナリオを戦略的に選択する。
本稿では,情報理論の獲得関数を提案し,効率的な近似手法を提案し,グリッドワールド実験を通じてその性能を示す。
論文 参考訳(メタデータ) (2024-12-31T10:32:24Z) - Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker [9.6508237676589]
模倣学習における大きなボトルネックは、多数の専門家によるデモンストレーションの要求である。
メタラーニング・アクション・ローダ(ILMAR)による模倣学習という新しい手法を提案する。
ILMARは、限定された専門家によるデモンストレーションと補足的なデモに重み付けされた行動クローニング(BC)を実装している。
論文 参考訳(メタデータ) (2024-12-28T16:06:44Z) - Make a Donut: Hierarchical EMD-Space Planning for Zero-Shot Deformable Manipulation with Tools [14.069149456110676]
本研究では,複雑な長期タスクに対処可能な実証自由階層型計画手法を提案する。
我々は,大規模言語モデル (LLMs) を用いて,特定のタスクに対応する高レベルステージ・バイ・ステージ・プランを記述している。
我々は、実世界のロボットプラットフォームの実験的な試行で、我々のアプローチをさらに裏付ける。
論文 参考訳(メタデータ) (2023-11-05T22:43:29Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。