Fugu-MT 論文翻訳(概要): NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation

論文の概要: NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation

arxiv url: http://arxiv.org/abs/2510.03895v1
Date: Sat, 04 Oct 2025 18:26:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:59.325948
Title: NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation
Title（参考訳）: NoTVLA:汎用ロボットマニピュレーションのためのDense Action Trajectoriesの狭義化
Authors: Zheng Huang, Mingyu Liu, Xiaoyi Lin, Muzhi Zhu, Canyu Zhao, Zongze Du, Xiaoman Li, Yiduo Jia, Hao Zhong, Hao Chen, Chunhua Shen,
Abstract要約: VLA(Vision-Language-Action)モデルは、現実の展開において重要な障壁に直面している。本稿では,軌道の狭小化に焦点を絞った新しい手法として,軌道の狭小化(Narrowing of Trajectory)VLAフレームワークを提案する。 NoTVLAは2つのクリティカルな制約の下で動作しながら、pi0よりも優れたパフォーマンスと一般化を実現している。
参考スコア（独自算出の注目度）: 54.87964060934928
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models represent a pivotal advance in embodied intelligence, yet they confront critical barriers to real-world deployment, most notably catastrophic forgetting. This issue stems from their overreliance on continuous action sequences or action chunks, which inadvertently create isolated data silos that disrupt knowledge retention across tasks. To tackle these challenges, we propose the Narrowing of Trajectory VLA (NoTVLA) framework: a novel approach that narrows its focus to sparse trajectories, thereby avoiding the catastrophic forgetting associated with dense trajectory fine-tuning. A key innovation of NoTVLA lies in its trajectory planning strategy: instead of centering on the target object's trajectory, it leverages temporal compression and spatial reasoning pruning specifically for the robot end effector's trajectory. Furthermore, training is conducted using these sparse trajectories rather than dense action trajectories, an optimization that delivers remarkable practical advantages with better performance in zero-shot. In multi-task evaluation scenarios, NoTVLA achieves superior performance and generalization compared to pi0 while operating under two critical constraints: it uses over an order of magnitude less computing power than pi0 and requires no wrist-mounted camera. This design ensures that NoTVLA's operational accuracy closely approximates that of single-task expert models. Crucially, it also preserves the model's inherent language capabilities, enabling zero-shot generalization in specific scenarios, supporting unified model deployment across multiple robot platforms, and fostering a degree of generalization even when perceiving tasks from novel perspectives.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、インテリジェンスにおいて重要な進歩を示すが、現実の展開に対する重要な障壁に直面している。この問題は、タスク間の知識保持を妨害する独立したデータサイロを不注意に生成する、連続的なアクションシーケンスやアクションチャンクへの過度な依存に起因する。これらの課題に対処するため, トラジェクトリVLA(Narrowing of Trajectory VLA, NoTVLA)フレームワークを提案する。対象物体の軌道に集中するのではなく、ロボットエンドエフェクタの軌道専用に時間的圧縮と空間的推論プルーニングを活用する。さらに,高密度な動作軌跡ではなく,これらのスパース軌跡を用いて訓練を行う。マルチタスク評価シナリオでは、NTVLAは2つの重要な制約の下で動作しながら、pi0よりも優れたパフォーマンスと一般化を実現している。この設計により、NOTVLAの運用精度はシングルタスクのエキスパートモデルに近いものとなる。重要なことに、それはモデルの固有の言語機能を保持し、特定のシナリオにおけるゼロショットの一般化を可能にし、複数のロボットプラットフォームにまたがる統一されたモデル展開をサポートし、新しい視点からタスクを知覚しても、ある程度の一般化を促進する。

関連論文リスト

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文参考訳（メタデータ） (2026-03-03T18:59:29Z)
Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons [69.87766750714945]
汎用ロボット報酬モデルは通常、専門家によるデモンストレーションから絶対的なタスク進捗を予測するために訓練される。本稿では、軌道内進行監視と軌道間優先監視を組み合わせたスケーラブルな報酬モデリングフレームワークRobometerを紹介する。ロビオメーターは、専門家データに報酬等級を固定するフレームレベルのプログレス・ロスと、グローバルな順序制約を課す軌跡比較優先損失という2つの目的で訓練されている。
論文参考訳（メタデータ） (2026-03-02T17:38:58Z)
Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。 SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文参考訳（メタデータ） (2026-02-25T06:58:06Z)
PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models [51.43746425777865]
大規模言語モデル(LLM)は、しばしばグローバル戦略を定式化する能力に欠けており、長い水平タスクにおけるエラーの伝播につながる。 PILOTは,大規模モデルの戦略的監視を本質的な潜伏誘導に内部化するためのフレームワークである。
論文参考訳（メタデータ） (2026-01-07T12:38:56Z)
TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking [30.955088934475928]
本稿では,空間的推論機構と時間的同定メモリ(TIM)という2つの重要なモジュールによる視覚追跡を具体化する新しいモデルであるTrackVLA++を提案する。 TrackVLA++は、エゴセントリックな設定とマルチカメラ設定の両方で、公開ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-10-08T15:29:17Z)
Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert [60.88976842557026]
VLM(Vision-Language Models)は、優れた計画と推論能力を示している。最近の二重系アプローチは「思考」と「行動」を分離しようとする一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
論文参考訳（メタデータ） (2025-10-04T18:33:27Z)
Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning [0.0]
本稿では,目標条件付き軌道計画のための条件付き潜在拡散モデルであるEfficient Virtuosoを提案する。提案手法は,Open Motionデータセット上での最先端性能を実現し,平均変位誤差(minADE)が0.25であることを示す。一つのゴールが戦略的曖昧さを解決できる一方で、人間の運転行動を反映した正確で忠実な戦術実行を実現するためには、よりリッチで多段階のスパース経路が不可欠である。
論文参考訳（メタデータ） (2025-09-03T19:18:02Z)
Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文参考訳（メタデータ） (2025-09-02T07:51:59Z)
Action-Constrained Imitation Learning [12.316546911223263]
行動制約下での政策学習は、様々なロボット制御や資源配分アプリケーションにおいて、安全な行動を保証する上で中心的な役割を果たす。本稿では,行動制約付き模倣者がより広い行動空間を持つ実証的専門家から学習することを目的とした,行動制約付き模倣学習(ACIL)と呼ばれる新たな課題について検討する。我々は、このミスマッチをテキストトラジェクトリアライメント(textittrajectory alignment)を通じて解決し、従来の専門家によるデモンストレーションを、アクション制約に固執しながら、同様の状態軌跡に従うサロゲートデータセットに置き換えるDTWILを提案する。
論文参考訳（メタデータ） (2025-08-20T03:19:07Z)
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文参考訳（メタデータ） (2024-11-18T01:52:20Z)
Latent Weight Diffusion: Generating reactive policies instead of trajectories [12.270795590154489]
ロボット作業のクローズドループポリシを生成するために,Latent Weight Diffusionを提案する。 LWDは、作用地平線が長い場合、拡散政策よりも成功率が高い。 LWDはDPに匹敵するマルチタスク性能を達成し、推論時間FLOPSの1/45しか必要としない。
論文参考訳（メタデータ） (2024-10-17T21:30:29Z)
Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文参考訳（メタデータ） (2024-02-04T15:54:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。