Fugu-MT 論文翻訳(概要): TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

論文の概要: TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

arxiv url: http://arxiv.org/abs/2412.10345v2
Date: Wed, 25 Dec 2024 23:12:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 16:01:36.291931
Title: TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
Title（参考訳）: TraceVLA: 汎用ロボット政策の空間的意識を高める視覚的トレースプロンプト
Authors: Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang,
Abstract要約: VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。 4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
参考スコア（独自算出の注目度）: 95.30717188630432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although large vision-language-action (VLA) models pretrained on extensive robot datasets offer promising generalist policies for robotic learning, they still struggle with spatial-temporal dynamics in interactive robotics, making them less effective in handling complex tasks, such as manipulation. In this work, we introduce visual trace prompting, a simple yet effective approach to facilitate VLA models' spatial-temporal awareness for action prediction by encoding state-action trajectories visually. We develop a new TraceVLA model by finetuning OpenVLA on our own collected dataset of 150K robot manipulation trajectories using visual trace prompting. Evaluations of TraceVLA across 137 configurations in SimplerEnv and 4 tasks on a physical WidowX robot demonstrate state-of-the-art performance, outperforming OpenVLA by 10% on SimplerEnv and 3.5x on real-robot tasks and exhibiting robust generalization across diverse embodiments and scenarios. To further validate the effectiveness and generality of our method, we present a compact VLA model based on 4B Phi-3-Vision, pretrained on the Open-X-Embodiment and finetuned on our dataset, rivals the 7B OpenVLA baseline while significantly improving inference efficiency.
Abstract（参考訳）: 大きな視覚-言語-アクション(VLA)モデルは、広範なロボットデータセットで事前訓練されているが、ロボット学習のための有望なジェネラリストポリシーを提供するが、対話型ロボット工学における空間時間力学に苦しむため、操作のような複雑なタスクの処理には効果が低い。本研究では,VLAモデルによる行動予測のための空間的時間的認識を視覚的に符号化する,視覚的トレースプロンプトを導入する。我々は,視覚的トレースプロンプトを用いた150Kロボット操作トラジェクトリの収集データセットにOpenVLAを微調整することにより,新しいTraceVLAモデルを開発した。 SimplerEnvの137構成と物理WidowXロボットの4つのタスクにおけるTraceVLAの評価は、最先端のパフォーマンスを示し、リアルロボットタスクではSimplerEnvと3.5xでOpenVLAを10%上回り、多様な実施形態やシナリオで堅牢な一般化を示す。提案手法の有効性と汎用性を更に検証するため,Open-X-Embodimentで事前訓練された4B Phi-3-Visionに基づくコンパクトなVLAモデルを提案する。

関連論文リスト

Towards Accessible Physical AI: LoRA-Based Fine-Tuning of VLA Models for Real-World Robot Control [0.0]
本稿では,VLAモデルを低コストなロボット操作システムに適用するための,効率的な微調整手法と実世界の展開分析について述べる。本稿では,LoRA(Lo-Rank Adaptation)と量子化技術を用いた資源効率の高い微調整手法を提案する。本手法は,事前学習したVLAモデルを,限られた実演データを持つ新しいロボット体に適応させる上で重要な課題に対処する。
論文参考訳（メタデータ） (2025-12-11T16:25:30Z)
X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model [62.21943953611646]
Vision-Language-Actionモデルは、多様なロボットプラットフォームにわたる効果的なトレーニングに依存している。最小限のパラメータを付加したソフトプロンプト手法を提案する。 0.9Bのインスタンス化-X-VLA-0.9Bは,ベンチマークの全体にわたってSOTA性能を同時に達成することを示す。
論文参考訳（メタデータ） (2025-10-11T16:20:17Z)
Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models [8.452688845632995]
我々は,視覚・言語・アクション(VLA)モデルのためのオブジェクト・エージェント中心のトークン化であるOat-VLAを提案する。 Oat-VLAは、パフォーマンスを犠牲にすることなく、視覚トークンの数をわずかに減らすことができる。我々は,Oat-VLA が LIBERO スイート上で OpenVLA の少なくとも2倍の速度で収束していることを明らかにする。
論文参考訳（メタデータ） (2025-09-28T05:42:53Z)
InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation [43.83789393525928]
InstructVLAは、大規模な視覚言語モデル(VLM)の柔軟な推論を保存し、主要な操作性能を提供するエンド・ツー・エンドの視覚言語モデルである。 InstructVLAは、新しいトレーニングパラダイムであるVision-Language-Action Instruction Tuning (VLA-IT)を導入している。ドメイン内のSimplerEnvタスクでは、InstructVLAはSpatialVLAよりも30.5%改善されている。
論文参考訳（メタデータ） (2025-07-23T13:57:06Z)
TrackVLA: Embodied Visual Tracking in the Wild [34.03604806748204]
Embodied visual trackingは、Embodied AIの基本的なスキルであり、エージェントは、自我中心の視覚のみを使用して、動的環境における特定のターゲットに従うことができる。既存のアプローチは通常、認識と計画のモジュラー分離を通じてこの問題に対処する。本研究では,物体認識と軌道計画の相乗効果を学習する視覚・言語・行動モデルであるTrackVLAを提案する。
論文参考訳（メタデータ） (2025-05-29T07:28:09Z)
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。 VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文参考訳（メタデータ） (2025-05-24T14:42:51Z)
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [32.83715417294052]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文参考訳（メタデータ） (2025-05-09T15:11:13Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文参考訳（メタデータ） (2025-02-27T00:30:29Z)
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文参考訳（メタデータ） (2025-02-09T11:25:56Z)
SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文参考訳（メタデータ） (2025-01-27T07:34:33Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文参考訳（メタデータ） (2024-09-19T07:10:18Z)
OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文参考訳（メタデータ） (2024-06-13T15:46:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。