論文の概要: Beyond the Majority: Long-tail Imitation Learning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.06512v1
- Date: Fri, 06 Feb 2026 09:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.228337
- Title: Beyond the Majority: Long-tail Imitation Learning for Robotic Manipulation
- Title(参考訳): 多数派を超えて:ロボットマニピュレーションのためのロングテール模倣学習
- Authors: Junhong Zhu, Ji Zhang, Jingkuan Song, Lianli Gao, Heng Tao Shen,
- Abstract要約: 訓練デモンストレーションの長期分布は、政策学習を妨げる。
Approaching-Phase Augmentation (APA)は、デモを必要とせずに、データリッチなヘッドタスクからデータシャースなテールタスクに知識を転送する。
- 参考スコア(独自算出の注目度): 121.31598641762251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While generalist robot policies hold significant promise for learning diverse manipulation skills through imitation, their performance is often hindered by the long-tail distribution of training demonstrations. Policies learned on such data, which is heavily skewed towards a few data-rich head tasks, frequently exhibit poor generalization when confronted with the vast number of data-scarce tail tasks. In this work, we conduct a comprehensive analysis of the pervasive long-tail challenge inherent in policy learning. Our analysis begins by demonstrating the inefficacy of conventional long-tail learning strategies (e.g., re-sampling) for improving the policy's performance on tail tasks. We then uncover the underlying mechanism for this failure, revealing that data scarcity on tail tasks directly impairs the policy's spatial reasoning capability. To overcome this, we introduce Approaching-Phase Augmentation (APA), a simple yet effective scheme that transfers knowledge from data-rich head tasks to data-scarce tail tasks without requiring external demonstrations. Extensive experiments in both simulation and real-world manipulation tasks demonstrate the effectiveness of APA. Our code and demos are publicly available at: https://mldxy.github.io/Project-VLA-long-tail/.
- Abstract(参考訳): 汎用的なロボットポリシーは、模倣を通して多様な操作スキルを学習する上で大きな可能性を秘めているが、それらのパフォーマンスは、しばしば訓練デモの長い尾の分布によって妨げられる。
このようなデータについて学んだポリシーは、いくつかのデータに富むヘッドタスクに対して大きく歪んでいるが、膨大な数のデータスカーステールタスクに直面した場合、しばしば一般化が不十分である。
本研究では,政策学習に固有の広範にわたる長期的課題を包括的に分析する。
本分析は,従来のロングテール学習戦略(例えば,リサンプリング)がテールタスクにおける政策のパフォーマンス向上に有効でないことを示すことから始まる。
そして、この失敗の基盤となるメカニズムを明らかにし、テールタスクのデータ不足がポリシーの空間的推論能力を損なうことを明らかにした。
そこで本研究では,データリッチなタスクからデータシャースなテールタスクに,外部のデモンストレーションを必要とせずに知識を伝達する,シンプルかつ効果的な手法である Approaching-Phase Augmentation (APA) を提案する。
シミュレーションおよび実世界の操作タスクにおける大規模な実験は、APAの有効性を実証している。
私たちのコードとデモは、https://mldxy.github.io/Project-VLA-long-tail/で公開されています。
関連論文リスト
- Using Non-Expert Data to Robustify Imitation Learning via Offline Reinforcement Learning [21.705096559151286]
オフライン強化学習は、非専門的なデータを利用して模倣学習ポリシーの性能を向上させることができることを示す。
提案手法は, オフラインRLにより拡張された模倣アルゴリズムにより, タスクを頑健に解決できることを示す。
論文 参考訳(メタデータ) (2025-10-22T11:43:39Z) - Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。
提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。
提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2~3倍向上する。
論文 参考訳(メタデータ) (2025-06-09T07:32:52Z) - Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation [14.977743061489518]
我々は,汎用デキスタラス操作のための新しいデータ効率のアプローチであるObject-Focus Actor (OFA)を紹介する。
OFAは、厳密な操作タスクで観測される一貫した終端軌道を利用して、効率的なポリシートレーニングを可能にする。
OFAは10のデモで堅牢なパフォーマンスを実現し、そのデータ効率を強調している。
論文 参考訳(メタデータ) (2025-05-21T04:37:56Z) - STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning [8.860366821983211]
STRAPは、トレーニング済みの視覚基盤モデルと動的時間ワープを利用して、大規模なトレーニングコーパスからトラジェクトリのサブシーケンスを堅牢に検索する技術である。
本研究では、事前学習された視覚基盤モデルと動的時間ワープを活用して、大規模学習コーパスからのトラジェクトリのサブシーケンスをロバストに検索するSTRAPを提案する。
論文 参考訳(メタデータ) (2024-12-19T18:54:06Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。