論文の概要: DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
- arxiv url: http://arxiv.org/abs/2601.22153v1
- Date: Thu, 29 Jan 2026 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.108436
- Title: DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
- Title(参考訳): DynamicVLA:動的オブジェクト操作のためのビジョンランゲージ・アクションモデル
- Authors: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu,
- Abstract要約: 時間的推論と閉ループ適応を統合した動的オブジェクト操作のフレームワークであるDynamicVLAを提案する。
我々は、自動データ収集パイプラインでスクラッチから構築されたDynamic Object Manipulationベンチマークを紹介します。
広範囲な評価は、応答速度、知覚、一般化の顕著な改善を示している。
- 参考スコア(独自算出の注目度): 52.83157499300261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manipulating dynamic objects remains an open challenge for Vision-Language-Action (VLA) models, which, despite strong generalization in static manipulation, struggle in dynamic scenarios requiring rapid perception, temporal anticipation, and continuous control. We present DynamicVLA, a framework for dynamic object manipulation that integrates temporal reasoning and closed-loop adaptation through three key designs: 1) a compact 0.4B VLA using a convolutional vision encoder for spatially efficient, structurally faithful encoding, enabling fast multimodal inference; 2) Continuous Inference, enabling overlapping reasoning and execution for lower latency and timely adaptation to object motion; and 3) Latent-aware Action Streaming, which bridges the perception-execution gap by enforcing temporally aligned action execution. To fill the missing foundation of dynamic manipulation data, we introduce the Dynamic Object Manipulation (DOM) benchmark, built from scratch with an auto data collection pipeline that efficiently gathers 200K synthetic episodes across 2.8K scenes and 206 objects, and enables fast collection of 2K real-world episodes without teleoperation. Extensive evaluations demonstrate remarkable improvements in response speed, perception, and generalization, positioning DynamicVLA as a unified framework for general dynamic object manipulation across embodiments.
- Abstract(参考訳): 動的オブジェクトを操作することは、静的操作の強い一般化にもかかわらず、迅速な知覚、時間的予測、継続的な制御を必要とする動的なシナリオに苦戦するビジョン・ランゲージ・アクション(VLA)モデルにとって、依然としてオープンな課題である。
時間的推論と閉ループ適応を3つの重要な設計で統合した動的オブジェクト操作フレームワークであるDynamicVLAを提案する。
1) 空間的に効率的で構造的に忠実な符号化のために畳み込み視覚エンコーダを用いたコンパクトな0.4B VLAにより、高速なマルチモーダル推論が可能となる。
2 連続推論であって、遅延の低減と物体の動きへのタイムリーな適応のために重なり合う推論及び実行を可能にすること。
3) 時間的に整合したアクション実行を強制することにより、知覚と実行のギャップを埋める潜在意識のアクションストリーミング。
動的操作データの欠如を補うため,自動データ収集パイプラインをスクラッチから構築したDynamic Object Manipulation (DOM)ベンチマークを導入し,2.8Kシーンと206オブジェクトに200Kの合成エピソードを効率よく収集し,遠隔操作なしで2Kのリアルタイムエピソードの高速収集を可能にする。
広汎な評価は、反応速度、知覚、一般化の顕著な改善を示し、DynamicVLAをエンボディメントをまたいだ一般的な動的オブジェクト操作のための統一的なフレームワークとして位置づけている。
関連論文リスト
- FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - DiViD: Disentangled Video Diffusion for Static-Dynamic Factorization [2.0032531485183345]
静的・動的因数分解のための最初のエンドツーエンドビデオ拡散フレームワークであるDiViDを紹介する。
DiViDは、最初のフレームとフレームごとの動的トークンからグローバルな静的トークンを抽出し、モーションコードから静的コンテンツを明示的に削除する。
我々は、スワップベースの精度とクロスリーカシメトリクスを用いて、実世界のベンチマーク上でDiViDを評価する。
論文 参考訳(メタデータ) (2025-07-18T14:09:18Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - SemanticFlow: A Self-Supervised Framework for Joint Scene Flow Prediction and Instance Segmentation in Dynamic Environments [10.303368447554591]
本稿では,全時間点雲のシーンフローとインスタンスセグメンテーションを同時に予測するマルチタスクフレームワークを提案する。
1)静的な背景と動的オブジェクトの最初の粗いセグメンテーションを用いて、共有特徴処理モジュールを介して動きと意味情報を精製するためのコンテキスト情報を提供するマルチタスクスキームの開発,2)シーンフロー推定とインスタンスセグメンテーションの性能を高めるための損失関数セットの開発,そして,交通シーン内の静的および動的オブジェクトの空間的および時間的一貫性を確保することを支援すること,3)粗い学習スキームの開発。
論文 参考訳(メタデータ) (2025-03-19T02:43:19Z) - UrbanGS: Semantic-Guided Gaussian Splatting for Urban Scene Reconstruction [86.4386398262018]
UrbanGSは2Dセマンティックマップと既存の動的ガウスアプローチを使って静的オブジェクトとシーンを区別する。
動的オブジェクトに対して、学習可能な時間埋め込みを用いて時間情報を集約する。
提案手法は, 修復の質と効率性において, 最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-12-04T16:59:49Z) - DynaVINS++: Robust Visual-Inertial State Estimator in Dynamic Environments by Adaptive Truncated Least Squares and Stable State Recovery [11.37707868611451]
我々はmboxtextitDynaVINS++と呼ばれる堅牢なVINSフレームワークを提案する。
我々のアプローチは、突然の動的オブジェクトを含む動的環境における有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-20T12:13:45Z) - Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering [49.36767999382054]
周期振動ガウスモデル(PVG)を提案する。
PVGは、当初静的シーン表現のために設計された効率的な3Dガウススプラッティング技術に基づいている。
PVGは、最良の代替品よりも900倍の速度でレンダリングできる。
論文 参考訳(メタデータ) (2023-11-30T13:53:50Z) - QE-BEV: Query Evolution for Bird's Eye View Object Detection in Varied Contexts [2.949710700293865]
3Dオブジェクト検出は、自律走行とロボット工学において重要な役割を担い、バードアイビュー(Bird's Eye View, BEV)の画像の正確な解釈を要求する。
動的クエリ進化戦略を利用して,K平均とTop-Kアテンション機構を利用するフレームワークを提案する。
本評価では,クエリに基づくBEVオブジェクト検出の領域に新たなベンチマークを設定することにより,検出精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2023-10-07T21:55:29Z) - AirDOS: Dynamic SLAM benefits from Articulated Objects [9.045690662672659]
オブジェクト認識SLAM(DOS)は、動的環境におけるロバストな動き推定を可能にするためにオブジェクトレベル情報を利用する。
AirDOSは、動的な調音オブジェクトを組み込むことで、カメラのポーズ推定を改善することができることを示す最初の動的オブジェクト認識SLAMシステムである。
論文 参考訳(メタデータ) (2021-09-21T01:23:48Z) - DynaSLAM II: Tightly-Coupled Multi-Object Tracking and SLAM [2.9822184411723645]
DynaSLAM IIは、ステレオおよびRGB-D構成のための視覚的SLAMシステムであり、マルチオブジェクト追跡機能を密に統合している。
動的物体の追跡はシーン理解のための豊富な手がかりを提供するだけでなく、カメラ追跡にも有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T15:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。