論文の概要: A Smooth Sea Never Made a Skilled $\texttt{SAILOR}$: Robust Imitation via Learning to Search
- arxiv url: http://arxiv.org/abs/2506.05294v1
- Date: Thu, 05 Jun 2025 17:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.867039
- Title: A Smooth Sea Never Made a Skilled $\texttt{SAILOR}$: Robust Imitation via Learning to Search
- Title(参考訳): Smooth Sea Never Made a Skilled $\texttt{SAILOR}$: Robust Imitation via Learning to Search
- Authors: Arnav Kumar Jain, Vibhakar Mohta, Subin Kim, Atiksh Bhardwaj, Juntao Ren, Yunhai Feng, Sanjiban Choudhury, Gokul Swamy,
- Abstract要約: 行動クローニング(BC)は、専門家が訪れた州で行ったことをエージェントに教える。
これは、BCエージェントがデモの支持から外す誤りを犯す場合、彼らはそれを回復する方法を知らないことが多いことを意味します。
これに対し,専門家による実証からL2S(Learning to Search)を学習すること,すなわち,テスト時に専門家の成果にマッチするために必要なコンポーネントを学習することを検討する。
texttSAILOR$は、同じデータでBC経由でトレーニングされた最先端の拡散ポリシーを一貫して上回る
- 参考スコア(独自算出の注目度): 11.150250280706544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fundamental limitation of the behavioral cloning (BC) approach to imitation learning is that it only teaches an agent what the expert did at states the expert visited. This means that when a BC agent makes a mistake which takes them out of the support of the demonstrations, they often don't know how to recover from it. In this sense, BC is akin to giving the agent the fish -- giving them dense supervision across a narrow set of states -- rather than teaching them to fish: to be able to reason independently about achieving the expert's outcome even when faced with unseen situations at test-time. In response, we explore learning to search (L2S) from expert demonstrations, i.e. learning the components required to, at test time, plan to match expert outcomes, even after making a mistake. These include (1) a world model and (2) a reward model. We carefully ablate the set of algorithmic and design decisions required to combine these and other components for stable and sample/interaction-efficient learning of recovery behavior without additional human corrections. Across a dozen visual manipulation tasks from three benchmarks, our approach $\texttt{SAILOR}$ consistently out-performs state-of-the-art Diffusion Policies trained via BC on the same data. Furthermore, scaling up the amount of demonstrations used for BC by 5-10$\times$ still leaves a performance gap. We find that $\texttt{SAILOR}$ can identify nuanced failures and is robust to reward hacking. Our code is available at https://github.com/arnavkj1995/SAILOR .
- Abstract(参考訳): 模倣学習に対する行動クローニング(BC)アプローチの基本的な制限は、専門家が訪れた州で専門家がしたことをエージェントに教えることである。
これは、BCエージェントがデモの支持から外す誤りを犯す場合、彼らはそれを回復する方法を知らないことが多いことを意味します。
この意味では、BCは、試験時に目に見えない状況に直面した場合でも、専門家の成果を独立して達成することができるように、エージェントに魚を与えるのと似ています。
これに対し,専門家による実証実験からL2S(Learning to Search)を学習すること,すなわち,テスト時に専門家の成果にマッチするために必要なコンポーネントを学習することを検討する。
これらは(1)世界モデル、(2)報酬モデルを含む。
我々は,これらと他のコンポーネントを組み合わせたアルゴリズムおよび設計決定の集合を,人為的な修正を伴わずに,安定的でサンプル/相互作用効率の高い回復行動の学習に用いた。
3つのベンチマークから、12の視覚的操作タスクに対して、アプローチ $\texttt{SAILOR}$ は、同じデータでBCでトレーニングされた最先端の拡散ポリシーを一貫して上回ります。
さらに、BCで使用されているデモを5-10$\times$にスケールアップしても、パフォーマンスのギャップは残る。
$\texttt{SAILOR}$は、ニュアンスド障害を識別でき、ハッキングに報いるには堅牢である。
私たちのコードはhttps://github.com/arnavkj1995/SAILOR で利用可能です。
関連論文リスト
- Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - A Dual Approach to Imitation Learning from Observations with Offline Datasets [19.856363985916644]
報酬関数の設計が困難な環境では、エージェントを学習するためのタスク仕様の効果的な代替手段である。
専門家の行動を必要とせずに任意の準最適データを利用してポリシーを模倣するアルゴリズムであるDILOを導出する。
論文 参考訳(メタデータ) (2024-06-13T04:39:42Z) - Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Provable Interactive Learning with Hindsight Instruction Feedback [29.754170272323105]
本研究では,教師がエージェントが生成した応答に最も適した教示を提供するため,後向きの指導で学習を学習する。
この後見的な指示のラベル付けは、最適応答の専門的な監督を提供するよりも、提供しやすいことが多い。
この設定のためにLORILと呼ばれるアルゴリズムを導入し、その後悔の度合いが$sqrtT$で、$T$はラウンドの数であり、固有のランクに依存していることを示す。
論文 参考訳(メタデータ) (2024-04-14T02:18:07Z) - Boot and Switch: Alternating Distillation for Zero-Shot Dense Retrieval [50.47192086219752]
$texttABEL$は、ゼロショット設定でのパス検索を強化するための、シンプルだが効果的な教師なしのメソッドである。
ラベル付きデータに対して$texttABEL$を微調整するか、既存の教師付き高密度検索と統合することにより、最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-11-27T06:22:57Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Understanding Adversarial Imitation Learning in Small Sample Regime: A
Stage-coupled Analysis [24.70187647541753]
ある種の模倣学習アプローチである逆模倣学習(AIL)は、例外的な性能を持つ。
AILは、ロコモーションコントロールのようなタスクにおいて、長期にわたって専門家のパフォーマンスと一致させることができる。
本稿では,TV-AILの模倣ギャップが,計画の地平にかかわらず少なくとも1であることを示す。
論文 参考訳(メタデータ) (2022-08-03T08:03:33Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Discriminator Soft Actor Critic without Extrinsic Rewards [0.30586855806896046]
少数の専門家データとサンプリングデータから、未知の状態においてうまく模倣することは困難である。
本稿では,このアルゴリズムを分散シフトに対してより堅牢にするために,DSAC(Distriminator Soft Actor Critic)を提案する。
論文 参考訳(メタデータ) (2020-01-19T10:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。