論文の概要: Language-Grounded Decoupled Action Representation for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2603.12967v1
- Date: Fri, 13 Mar 2026 13:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.767665
- Title: Language-Grounded Decoupled Action Representation for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための言語を包含した非結合動作表現
- Authors: Wuding Weng, Tongshu Wu, Liucheng Chen, Siyu Xie, Zheng Wang, Xing Xu, Jingkuan Song, Heng Tao Shen,
- Abstract要約: 認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
- 参考スコア(独自算出の注目度): 78.42228162226839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The heterogeneity between high-level vision-language understanding and low-level action control remains a fundamental challenge in robotic manipulation. Although recent methods have advanced task-specific action alignment, they often struggle to generate robust and accurate actions for novel or semantically related tasks. To address this, we propose the Language-Grounded Decoupled Action Representation (LaDA) framework, which leverages natural language as a semantic bridge to connect perception and control. LaDA introduces a fine-grained intermediate layer of three interpretable action primitives--translation, rotation, and gripper control--providing explicit semantic structure for low-level actions. It further employs a semantic-guided soft-label contrastive learning objective to align similar action primitives across tasks, enhancing generalization and motion consistency. An adaptive weighting strategy, inspired by curriculum learning, dynamically balances contrastive and imitation objectives for stable and effective training. Extensive experiments on simulated benchmarks (LIBERO and MimicGen) and real-world demonstrations validate that LaDA achieves strong performance and generalizes effectively to unseen or related tasks.
- Abstract(参考訳): 高レベル視覚言語理解と低レベル行動制御の異質性は、ロボット操作における根本的な課題である。
最近の手法では、タスク固有のアクションアライメントが進んでいるが、新しいタスクやセマンティックなタスクに対して、堅牢で正確なアクションを生成するのに苦労することが多い。
これを解決するために,自然言語を意味橋として活用し,認識と制御を接続するLanguage-Grounded Decoupled Action Representation (LaDA)フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
カリキュラム学習にインスパイアされた適応重み付け戦略は、安定的で効果的なトレーニングのために、コントラストと模倣の目標を動的にバランスさせる。
シミュレーションベンチマーク(LIBEROとMimicGen)と実世界の実証実験は、LaDAが強力なパフォーマンスを達成し、目に見えないタスクや関連するタスクに効果的に一般化することを実証している。
関連論文リスト
- KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition [89.7916653471162]
本稿では,多様なキネマティック属性を密に符号化する,新しいキネマティックスリッチな視覚言語アクション(VLA)タスクを提案する。
この設定では、タスクゴールは不変のままであり、実行軌跡は命令レベルのキネマティック仕様に適応する必要がある。
我々は、KineVLAがキネマティクスに敏感なベンチマークで強いVLAベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-03-18T09:28:49Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Language-Guided Grasp Detection with Coarse-to-Fine Learning for Robotic Manipulation [31.386822229629455]
本稿では,ロボット操作のための粗粒度学習パラダイムを用いた言語誘導グラフ検出(LGGD)を提案する。
この設計により、きめ細かいビジュアル・セマンティックなアライメントが可能となり、タスク命令に対する予測された把握の実現性が改善される。
OCID-VLGとGrasp-Anything++データセットの実験は、LGGDが既存の言語誘導の把握方法を上回ることを示している。
論文 参考訳(メタデータ) (2025-12-24T09:16:42Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Zero-Shot Open-Vocabulary Human Motion Grounding with Test-Time Training [39.7658823121591]
ZOMGは、アノテーションや微調整を必要とせずに、動作シーケンスを意味のあるサブアクションに分割するフレームワークである。
ZOMGは(1)言語セマンティックパーティションを統合し、大きな言語モデルを利用して命令を順序付けられたサブアクション単位に分解し、(2)ソフトマスキング最適化を行う。
3つのモーション言語データセットの実験では、HumanML3Dベンチマークにおいて、先行手法を+8.7%mAPで上回る、動作グラウンド性能の最先端の有効性と効率が示されている。
論文 参考訳(メタデータ) (2025-11-19T12:11:36Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Grounding Language Models with Semantic Digital Twins for Robotic Planning [6.474368392218828]
セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。
提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
論文 参考訳(メタデータ) (2025-06-19T17:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。