論文の概要: DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2603.00926v1
- Date: Sun, 01 Mar 2026 05:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.792552
- Title: DAM-VLA: A Dynamic Action Model-Based Vision-Language-Action Framework for Robot Manipulation
- Title(参考訳): DAM-VLA:ロボット操作のための動的行動モデルに基づく視覚言語アクションフレームワーク
- Authors: Xiongfeng Peng, Jiaqian Yu, Dingzhe Li, Yixiang Jin, Lu Xu, Yamin Mao, Chao Zhang, Weiming Li, Sujin Jang, Dongwook Lee, Daehyun Ji,
- Abstract要約: DAM-VLAは動的アクションモデルに基づくVision-Language-Actionフレームワークである。
VLM推論と拡散に基づくアームとグリップ制御のためのアクションモデルを統合する。
DAM-VLAは、シミュレーションおよび実世界の設定において最先端のVLA手法よりも優れた成功率を達成する。
- 参考スコア(独自算出の注目度): 21.418782746588263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In dynamic environments such as warehouses, hospitals, and homes, robots must seamlessly transition between gross motion and precise manipulations to complete complex tasks. However, current Vision-Language-Action (VLA) frameworks, largely adapted from pre-trained Vision-Language Models (VLMs), often struggle to reconcile general task adaptability with the specialized precision required for intricate manipulation. To address this challenge, we propose DAM-VLA, a dynamic action model-based VLA framework. DAM-VLA integrates VLM reasoning with diffusion-based action models specialized for arm and gripper control. Specifically, it introduces (i) an action routing mechanism, using task-specific visual and linguistic cues to select appropriate action models (e.g., arm movement or gripper manipulation), (ii) a dynamic action model that fuses high-level VLM cognition with low-level visual features to predict actions, and (iii) a dual-scale action weighting mechanism that enables dynamic coordination between the arm-movement and gripper-manipulation models. Across extensive evaluations, DAM-VLA achieves superior success rates compared to state-of-the-art VLA methods in simulated (SIMPLER, FurnitureBench) and real-world settings, showing robust generalization from standard pick-and-place to demanding long-horizon and contact-rich tasks.
- Abstract(参考訳): 倉庫、病院、家などの動的な環境では、ロボットは、全体の動きと正確な操作をシームレスに移行し、複雑なタスクを完了させなければならない。
しかしながら、現在のVision-Language-Action (VLA) フレームワークは、訓練済みのVision-Language Models (VLM) を主に採用しており、複雑な操作に必要な特別な精度と一般的なタスク適応性を調整するのに苦労することが多い。
この課題に対処するため、動的アクションモデルに基づくVLAフレームワークであるDAM-VLAを提案する。
DAM-VLAは、VLM推論と、アームとグリップ制御に特化した拡散ベースのアクションモデルを統合する。
具体的には
一 適切な行動モデル(例えば、腕の動き、握手操作)を選択するためのタスク固有の視覚的・言語的手がかりを用いた行動ルーティング機構
(ii)高レベルのVLM認知と低レベルの視覚的特徴を融合させて行動を予測する動的行動モデル、
三 アーム・ムーブメントとグリップ・マニピュレーション・モデルとの動的協調を可能にする二スケール動作重み付け機構
DAM-VLAは、シミュレーション(SIMPLER、FurnitureBench)および実世界の環境設定における最先端VLA法と比較して、より優れた成功率を実現し、標準的なピック・アンド・プレイスから、長時間水平・接触リッチなタスクへの堅牢な一般化を示す。
関連論文リスト
- PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - PhysiAgent: An Embodied Agent Framework in Physical World [33.821400205384144]
VLA(Vision-Language-Action)モデルは顕著な成功を収めたが、しばしば限定的な一般化に苦戦している。
現在のアプローチはしばしばこれらのモデルを厳密でシーケンシャルな構造に組み合わせる。
本研究では,物理環境において効果的に動作するように調整された物理エージェントフレームワークであるPhysorAgentを提案する。
論文 参考訳(メタデータ) (2025-09-29T09:39:32Z) - LLaDA-VLA: Vision Language Diffusion Action Models [23.653152301133925]
自己回帰モデルとは異なるパラダイムである仮面拡散モデルは、テキスト生成やマルチモーダルアプリケーションにおける競合性能を実証し始めている。
LLaDA-VLAは,ロボット操作のための事前訓練d-VLM上に構築された最初のビジョン・ランゲージ・ディフュージョン・アクションモデルである。
論文 参考訳(メタデータ) (2025-09-08T17:45:40Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand [2.7036595757881323]
微調整された視覚・言語・行動モデルと拡散モデルの相対的利点を組み合わせたハイブリッド制御法を提案する。
VLAモデルのみを使用する場合と比較して,このモデル切替手法は80%以上の成功率を示す。
論文 参考訳(メタデータ) (2024-10-17T20:49:45Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。