論文の概要: NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation
- arxiv url: http://arxiv.org/abs/2510.03895v1
- Date: Sat, 04 Oct 2025 18:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.325948
- Title: NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation
- Title(参考訳): NoTVLA:汎用ロボットマニピュレーションのためのDense Action Trajectoriesの狭義化
- Authors: Zheng Huang, Mingyu Liu, Xiaoyi Lin, Muzhi Zhu, Canyu Zhao, Zongze Du, Xiaoman Li, Yiduo Jia, Hao Zhong, Hao Chen, Chunhua Shen,
- Abstract要約: VLA(Vision-Language-Action)モデルは、現実の展開において重要な障壁に直面している。
本稿では,軌道の狭小化に焦点を絞った新しい手法として,軌道の狭小化(Narrowing of Trajectory)VLAフレームワークを提案する。
NoTVLAは2つのクリティカルな制約の下で動作しながら、pi0よりも優れたパフォーマンスと一般化を実現している。
- 参考スコア(独自算出の注目度): 54.87964060934928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models represent a pivotal advance in embodied intelligence, yet they confront critical barriers to real-world deployment, most notably catastrophic forgetting. This issue stems from their overreliance on continuous action sequences or action chunks, which inadvertently create isolated data silos that disrupt knowledge retention across tasks. To tackle these challenges, we propose the Narrowing of Trajectory VLA (NoTVLA) framework: a novel approach that narrows its focus to sparse trajectories, thereby avoiding the catastrophic forgetting associated with dense trajectory fine-tuning. A key innovation of NoTVLA lies in its trajectory planning strategy: instead of centering on the target object's trajectory, it leverages temporal compression and spatial reasoning pruning specifically for the robot end effector's trajectory. Furthermore, training is conducted using these sparse trajectories rather than dense action trajectories, an optimization that delivers remarkable practical advantages with better performance in zero-shot. In multi-task evaluation scenarios, NoTVLA achieves superior performance and generalization compared to pi0 while operating under two critical constraints: it uses over an order of magnitude less computing power than pi0 and requires no wrist-mounted camera. This design ensures that NoTVLA's operational accuracy closely approximates that of single-task expert models. Crucially, it also preserves the model's inherent language capabilities, enabling zero-shot generalization in specific scenarios, supporting unified model deployment across multiple robot platforms, and fostering a degree of generalization even when perceiving tasks from novel perspectives.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、インテリジェンスにおいて重要な進歩を示すが、現実の展開に対する重要な障壁に直面している。
この問題は、タスク間の知識保持を妨害する独立したデータサイロを不注意に生成する、連続的なアクションシーケンスやアクションチャンクへの過度な依存に起因する。
これらの課題に対処するため, トラジェクトリVLA(Narrowing of Trajectory VLA, NoTVLA)フレームワークを提案する。
対象物体の軌道に集中するのではなく、ロボットエンドエフェクタの軌道専用に時間的圧縮と空間的推論プルーニングを活用する。
さらに,高密度な動作軌跡ではなく,これらのスパース軌跡を用いて訓練を行う。
マルチタスク評価シナリオでは、NTVLAは2つの重要な制約の下で動作しながら、pi0よりも優れたパフォーマンスと一般化を実現している。
この設計により、NOTVLAの運用精度はシングルタスクのエキスパートモデルに近いものとなる。
重要なことに、それはモデルの固有の言語機能を保持し、特定のシナリオにおけるゼロショットの一般化を可能にし、複数のロボットプラットフォームにまたがる統一されたモデル展開をサポートし、新しい視点からタスクを知覚しても、ある程度の一般化を促進する。
関連論文リスト
- Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert [60.88976842557026]
VLM(Vision-Language Models)は、優れた計画と推論能力を示している。
最近の二重系アプローチは「思考」と「行動」を分離しようとする
一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-10-04T18:33:27Z) - Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning [0.0]
本稿では,目標条件付き軌道計画のための条件付き潜在拡散モデルであるEfficient Virtuosoを提案する。
提案手法は,Open Motionデータセット上での最先端性能を実現し,平均変位誤差(minADE)が0.25であることを示す。
一つのゴールが戦略的曖昧さを解決できる一方で、人間の運転行動を反映した正確で忠実な戦術実行を実現するためには、よりリッチで多段階のスパース経路が不可欠である。
論文 参考訳(メタデータ) (2025-09-03T19:18:02Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Action-Constrained Imitation Learning [12.316546911223263]
行動制約下での政策学習は、様々なロボット制御や資源配分アプリケーションにおいて、安全な行動を保証する上で中心的な役割を果たす。
本稿では,行動制約付き模倣者がより広い行動空間を持つ実証的専門家から学習することを目的とした,行動制約付き模倣学習(ACIL)と呼ばれる新たな課題について検討する。
我々は、このミスマッチをテキストトラジェクトリアライメント(textittrajectory alignment)を通じて解決し、従来の専門家によるデモンストレーションを、アクション制約に固執しながら、同様の状態軌跡に従うサロゲートデータセットに置き換えるDTWILを提案する。
論文 参考訳(メタデータ) (2025-08-20T03:19:07Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Latent Weight Diffusion: Generating reactive policies instead of trajectories [12.270795590154489]
ロボット作業のクローズドループポリシを生成するために,Latent Weight Diffusionを提案する。
LWDは、作用地平線が長い場合、拡散政策よりも成功率が高い。
LWDはDPに匹敵するマルチタスク性能を達成し、推論時間FLOPSの1/45しか必要としない。
論文 参考訳(メタデータ) (2024-10-17T21:30:29Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。