論文の概要: Mimic Intent, Not Just Trajectories
- arxiv url: http://arxiv.org/abs/2602.08602v2
- Date: Wed, 18 Mar 2026 08:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.287381
- Title: Mimic Intent, Not Just Trajectories
- Title(参考訳): Mimic Intent - 単なるトラジェクトリではない
- Authors: Renming Huang, Chendong Zeng, Wenjing Tang, Jintian Cai, Cewu Lu, Panpan Cai,
- Abstract要約: これは、根底にある意図を理解せずに生の軌道を模倣することに由来すると我々は主張する。
エンド-2-end IL: Mimic Intent, not just Trajectories。
いくつかの操作ベンチマークと実際のロボットの実験では、最先端の成功率、優れた推論効率、障害に対する堅牢な一般化、効果的なワンショット転送が示されている。
- 参考スコア(独自算出の注目度): 39.77112205526461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While imitation learning (IL) has achieved impressive success in dexterous manipulation through generative modeling and pretraining, state-of-the-art approaches like Vision-Language-Action (VLA) models still struggle with adaptation to environmental changes and skill transfer. We argue this stems from mimicking raw trajectories without understanding the underlying intent. To address this, we propose explicitly disentangling behavior intent from execution details in end-2-end IL: Mimic Intent, Not just Trajectories(MINT). We achieve this via multi-scale frequency-space tokenization, which enforces a spectral decomposition of action chunk representation. We learn action tokens with a multi-scale coarse-to-fine structure, and force the coarsest token to capture low-frequency global structure and finer tokens to encode high-frequency details. This yields an abstract Intent token that facilitates planning and transfer, and multi-scale Execution tokens that enable precise adaptation to environmental dynamics. Building on this hierarchy, our policy generates trajectories through next-scale autoregression, performing progressive intent-to-execution reasoning, thus boosting learning efficiency and generalization. Crucially, this disentanglement enables one-shot transfer of skills, by simply injecting the Intent token from a demonstration into the autoregressive generation process. Experiments on several manipulation benchmarks and on a real robot demonstrate state-of-the-art success rates, superior inference efficiency, robust generalization against disturbances, and effective one-shot transfer.
- Abstract(参考訳): 模倣学習(IL)は、生成モデリングと事前訓練を通じて、巧妙な操作において驚くべき成功を収めてきたが、ビジョン・ランゲージ・アクション(VLA)モデルのような最先端のアプローチは、まだ環境の変化や技術移転への適応に苦慮している。
これは、根底にある意図を理解せずに生の軌道を模倣することに由来すると我々は主張する。
これを解決するために、エンド-2-end IL: Mimic Intent, Not just Trajectories(MINT)における実行の詳細から行動意図を明示的に切り離すことを提案する。
我々は、アクションチャンク表現のスペクトル分解を強制するマルチスケールの周波数空間トークン化によってこれを実現する。
マルチスケールの粗い構造でアクショントークンを学習し、粗いトークンに低周波のグローバル構造と細かなトークンを捕捉させ、高周波の詳細を符号化する。
これにより、計画と転送を容易にする抽象的なIntentトークンと、環境力学への正確な適応を可能にするマルチスケールなExecutionトークンが得られる。
この階層を基盤として、我々の政策は、次のスケールの自己回帰を通じて軌道を生成し、プログレッシブな意図と実行の推論を行い、学習効率と一般化を促進する。
重要なのは、インテントトークンをデモから自己回帰生成プロセスに単純に注入することで、スキルのワンショット転送を可能にすることだ。
いくつかの操作ベンチマークと実際のロボットの実験では、最先端の成功率、優れた推論効率、障害に対する堅牢な一般化、効果的なワンショット転送が示されている。
関連論文リスト
- Bridging Scale Discrepancies in Robotic Control via Language-Based Action Representations [20.612898908232907]
本稿では,効果的な事前学習のための行動正規化のための意味的基礎言語表現を提案する。
提案手法は,ロボット操作作業における一般化と伝達性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-12-09T12:45:12Z) - FreqPolicy: Frequency Autoregressive Visuomotor Policy with Continuous Tokens [47.735852718586216]
本稿では,階層的な周波数成分を段階的にモデル化するビジュモータポリシー学習のための新しいパラダイムを提案する。
さらに精度を高めるために,動作空間の滑らかさと連続性を維持する連続潜在表現を導入する。
我々の手法は、精度と効率の両方で既存の手法より優れている。
論文 参考訳(メタデータ) (2025-06-02T12:13:51Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。