Fugu-MT 論文翻訳(概要): DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

論文の概要: DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

arxiv url: http://arxiv.org/abs/2601.22153v1
Date: Thu, 29 Jan 2026 18:59:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-30 16:22:50.108436
Title: DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
Title（参考訳）: DynamicVLA:動的オブジェクト操作のためのビジョンランゲージ・アクションモデル
Authors: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu,
Abstract要約: 時間的推論と閉ループ適応を統合した動的オブジェクト操作のフレームワークであるDynamicVLAを提案する。我々は、自動データ収集パイプラインでスクラッチから構築されたDynamic Object Manipulationベンチマークを紹介します。広範囲な評価は、応答速度、知覚、一般化の顕著な改善を示している。
参考スコア（独自算出の注目度）: 52.83157499300261
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Manipulating dynamic objects remains an open challenge for Vision-Language-Action (VLA) models, which, despite strong generalization in static manipulation, struggle in dynamic scenarios requiring rapid perception, temporal anticipation, and continuous control. We present DynamicVLA, a framework for dynamic object manipulation that integrates temporal reasoning and closed-loop adaptation through three key designs: 1) a compact 0.4B VLA using a convolutional vision encoder for spatially efficient, structurally faithful encoding, enabling fast multimodal inference; 2) Continuous Inference, enabling overlapping reasoning and execution for lower latency and timely adaptation to object motion; and 3) Latent-aware Action Streaming, which bridges the perception-execution gap by enforcing temporally aligned action execution. To fill the missing foundation of dynamic manipulation data, we introduce the Dynamic Object Manipulation (DOM) benchmark, built from scratch with an auto data collection pipeline that efficiently gathers 200K synthetic episodes across 2.8K scenes and 206 objects, and enables fast collection of 2K real-world episodes without teleoperation. Extensive evaluations demonstrate remarkable improvements in response speed, perception, and generalization, positioning DynamicVLA as a unified framework for general dynamic object manipulation across embodiments.
Abstract（参考訳）: 動的オブジェクトを操作することは、静的操作の強い一般化にもかかわらず、迅速な知覚、時間的予測、継続的な制御を必要とする動的なシナリオに苦戦するビジョン・ランゲージ・アクション(VLA)モデルにとって、依然としてオープンな課題である。時間的推論と閉ループ適応を3つの重要な設計で統合した動的オブジェクト操作フレームワークであるDynamicVLAを提案する。 1) 空間的に効率的で構造的に忠実な符号化のために畳み込み視覚エンコーダを用いたコンパクトな0.4B VLAにより、高速なマルチモーダル推論が可能となる。 2 連続推論であって、遅延の低減と物体の動きへのタイムリーな適応のために重なり合う推論及び実行を可能にすること。 3) 時間的に整合したアクション実行を強制することにより、知覚と実行のギャップを埋める潜在意識のアクションストリーミング。動的操作データの欠如を補うため,自動データ収集パイプラインをスクラッチから構築したDynamic Object Manipulation (DOM)ベンチマークを導入し,2.8Kシーンと206オブジェクトに200Kの合成エピソードを効率よく収集し,遠隔操作なしで2Kのリアルタイムエピソードの高速収集を可能にする。広汎な評価は、反応速度、知覚、一般化の顕著な改善を示し、DynamicVLAをエンボディメントをまたいだ一般的な動的オブジェクト操作のための統一的なフレームワークとして位置づけている。

関連論文リスト

CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。 CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文参考訳（メタデータ） (2025-06-24T17:30:27Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文参考訳（メタデータ） (2025-05-23T03:28:25Z)
DynaVINS++: Robust Visual-Inertial State Estimator in Dynamic Environments by Adaptive Truncated Least Squares and Stable State Recovery [11.37707868611451]
我々はmboxtextitDynaVINS++と呼ばれる堅牢なVINSフレームワークを提案する。我々のアプローチは、突然の動的オブジェクトを含む動的環境における有望なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-20T12:13:45Z)
Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering [49.36767999382054]
周期振動ガウスモデル(PVG)を提案する。 PVGは、当初静的シーン表現のために設計された効率的な3Dガウススプラッティング技術に基づいている。 PVGは、最良の代替品よりも900倍の速度でレンダリングできる。
論文参考訳（メタデータ） (2023-11-30T13:53:50Z)
QE-BEV: Query Evolution for Bird's Eye View Object Detection in Varied Contexts [2.949710700293865]
3Dオブジェクト検出は、自律走行とロボット工学において重要な役割を担い、バードアイビュー(Bird's Eye View, BEV)の画像の正確な解釈を要求する。動的クエリ進化戦略を利用して,K平均とTop-Kアテンション機構を利用するフレームワークを提案する。本評価では,クエリに基づくBEVオブジェクト検出の領域に新たなベンチマークを設定することにより,検出精度が著しく向上したことを示す。
論文参考訳（メタデータ） (2023-10-07T21:55:29Z)
AirDOS: Dynamic SLAM benefits from Articulated Objects [9.045690662672659]
オブジェクト認識SLAM(DOS)は、動的環境におけるロバストな動き推定を可能にするためにオブジェクトレベル情報を利用する。 AirDOSは、動的な調音オブジェクトを組み込むことで、カメラのポーズ推定を改善することができることを示す最初の動的オブジェクト認識SLAMシステムである。
論文参考訳（メタデータ） (2021-09-21T01:23:48Z)
DynaSLAM II: Tightly-Coupled Multi-Object Tracking and SLAM [2.9822184411723645]
DynaSLAM IIは、ステレオおよびRGB-D構成のための視覚的SLAMシステムであり、マルチオブジェクト追跡機能を密に統合している。動的物体の追跡はシーン理解のための豊富な手がかりを提供するだけでなく、カメラ追跡にも有用であることを示す。
論文参考訳（メタデータ） (2020-10-15T15:25:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。