論文の概要: MOTIF: Learning Action Motifs for Few-shot Cross-Embodiment Transfer
- arxiv url: http://arxiv.org/abs/2602.13764v1
- Date: Sat, 14 Feb 2026 13:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.407822
- Title: MOTIF: Learning Action Motifs for Few-shot Cross-Embodiment Transfer
- Title(参考訳): MOTIF:Few-shot Cross-Embodiment Transferのための学習行動モチーフ
- Authors: Heng Zhi, Wentao Tan, Lei Zhu, Fengling Li, Jingjing Li, Guoli Yang, Heng Tao Shen,
- Abstract要約: クロス・エボディメント・ポリシーは一般的に共有プライベート・アーキテクチャに依存している。
本報告では,MOTIFを効率よく数発のクロスボディーメントトランスファーに適用する。
我々はMOTIFが数発の転送シナリオにおいて強いベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 55.982504915794514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vision-language-action (VLA) models have advanced generalist robotic learning, cross-embodiment transfer remains challenging due to kinematic heterogeneity and the high cost of collecting sufficient real-world demonstrations to support fine-tuning. Existing cross-embodiment policies typically rely on shared-private architectures, which suffer from limited capacity of private parameters and lack explicit adaptation mechanisms. To address these limitations, we introduce MOTIF for efficient few-shot cross-embodiment transfer that decouples embodiment-agnostic spatiotemporal patterns, termed action motifs, from heterogeneous action data. Specifically, MOTIF first learns unified motifs via vector quantization with progress-aware alignment and embodiment adversarial constraints to ensure temporal and cross-embodiment consistency. We then design a lightweight predictor that predicts these motifs from real-time inputs to guide a flow-matching policy, fusing them with robot-specific states to enable action generation on new embodiments. Evaluations across both simulation and real-world environments validate the superiority of MOTIF, which significantly outperforms strong baselines in few-shot transfer scenarios by 6.5% in simulation and 43.7% in real-world settings. Code is available at https://github.com/buduz/MOTIF.
- Abstract(参考訳): 視覚-言語-アクション(VLA)モデルには高度な汎用的なロボット学習があるが、運動的不均一性と、微調整を支援するために十分な実世界の実演を集めるコストが高いため、クロス・エボディメント・トランスファーは依然として困難である。
既存のクロス・エボディメント・ポリシーは一般に共有プライベート・アーキテクチャに依存しており、プライベート・パラメータの容量が限られ、明示的な適応機構が欠如している。
これらの制約に対処するために,不均一な行動データから,エンボディメント非依存的な時空間パターンを分離する効率の低いクロスボデーメント転送のためのMOTIFを導入する。
特に、MOTIFは、まずベクトル量子化と進行を意識したアライメントとエンボディメントの対角的制約によって統合モチーフを学習し、時間的および相互身体的整合性を確保する。
次に、これらのモチーフをリアルタイム入力から予測し、フローマッチングポリシーを導出する軽量な予測器を設計し、ロボット固有の状態と融合して新しい実施形態のアクション生成を可能にする。
シミュレーションと実世界の環境の両方で評価され、MOTIFの優位性は、数発の転送シナリオにおいて強いベースラインを6.5%、実世界の設定では43.7%で上回っている。
コードはhttps://github.com/buduz/MOTIF.comで入手できる。
関連論文リスト
- Enhanced Motion Forecasting with Plug-and-Play Multimodal Large Language Models [40.17845169929452]
PnF(Plug-and-Forecast)は,マルチモーダル大言語モデル(MLLM)を用いた既存の動き予測モデルを強化するプラグイン・アンド・プレイ方式である。
PnFは、自然言語が複雑なシナリオを記述し、処理するためのより効果的な方法を提供するという洞察に基づいて構築されている。
本手法はMLLMのゼロショット推論機能を利用して,微調整を必要とせず,動作予測性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-20T08:01:29Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Trajectory Mamba: Efficient Attention-Mamba Forecasting Model Based on Selective SSM [16.532357621144342]
本稿では、選択状態空間モデル(SSM)に基づく新しい効率的な軌道予測フレームワークであるTrajectory Mambaを紹介する。
注意機構の変更による予測精度の潜在的な低減に対処するため,共同ポリリン符号化戦略を提案する。
本モデルでは,Argoverse 1 と Argoverse 2 の両方のデータセットにおける推定速度とパラメータ効率の両面から,最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-03-13T21:31:12Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models [8.943713711458633]
我々は、フィードバックベースのモーダル・ミューチュアル・サーチ(FMMS)と呼ばれる新たな攻撃パラダイムを提案する。
FMMSは、マッチした画像とテキストのペアをランダムに描画しながら、特徴空間に不一致のペアを描画することを目的としている。
これは、ターゲットモデルフィードバックを利用して、マルチモーダリティの逆境を探索する最初の試みである。
論文 参考訳(メタデータ) (2024-08-27T02:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。