論文の概要: VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting
- arxiv url: http://arxiv.org/abs/2507.05116v2
- Date: Thu, 10 Jul 2025 14:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.068514
- Title: VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting
- Title(参考訳): VOTE:トラジェクトリ・アンサンブル投票を用いたビジョンランゲージ・アクション最適化
- Authors: Juyi Lin, Amir Taherin, Arash Akbari, Arman Akbari, Lei Lu, Guangyu Chen, Taskin Padir, Xiaomeng Yang, Weiwei Chen, Yiqian Li, Xue Lin, David Kaeli, Pu Zhao, Yanzhi Wang,
- Abstract要約: 本稿では,視覚言語行動(VLA)モデルの最適化と高速化のための効率的なフレームワークVOTEを提案する。
そこで本研究では,並列的高精度動作予測のための新しいトークンフリー微調整手法を提案し,計算オーバーヘッドを低減し,推論速度を高速化する。
実験の結果,35倍高速で145Hzのスループットで最先端性能を実現することができた。
- 参考スコア(独自算出の注目度): 40.837048280287206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large-scale Vision Language Action (VLA) models have shown superior performance in robotic manipulation tasks guided by natural language. However, their generalization remains limited when applied to novel objects or unfamiliar environments that lie outside the training distribution. To address this, many existing approaches integrate additional components such as depth estimation, segmentation, or even diffusion to improve generalization, at the cost of adding significant computation overhead, resulting in low efficiency. This motivates the exploration of efficient action prediction methods, which are independent of additional high-level visual representations or diffusion techniques. In this work, we propose VOTE, an efficient and general framework for the optimization and acceleration of VLA models. In details, we propose a novel tokenizer-free fine-tuning approach for parallel accurate action prediction, which reduces computational overhead and accelerates inference speed. Additionally, we adopt an ensemble voting strategy for the action sampling, which significantly improves model performance and enhances generalization. Experimental results show that our method achieves state-of-the-art performance with 35x faster inference and 145 Hz throughput. All the details and codes will be open-sourced.
- Abstract(参考訳): 最近の大規模ビジョン言語行動(VLA)モデルは、自然言語で案内されるロボット操作タスクにおいて優れた性能を示している。
しかし、それらの一般化は、トレーニング分布の外にある新しい物体や慣れない環境に適用する場合に限られている。
この問題に対処するため、多くの既存手法は、計算オーバーヘッドの大幅な増加を犠牲にして、深度推定、セグメンテーション、あるいは拡散のような追加のコンポーネントを統合し、効率を低下させる。
これは、高レベルな視覚表現や拡散技術に依存しない効率的な行動予測手法の探索を動機付けている。
本稿では,VLAモデルの最適化と高速化のための効率的で汎用的なフレームワークVOTEを提案する。
そこで本研究では,並列的高精度動作予測のための新しいトークンフリー微調整手法を提案し,計算オーバーヘッドを低減し,推論速度を高速化する。
さらに,アクションサンプリングのためのアンサンブル投票戦略を採用し,モデル性能を大幅に向上し,一般化を促進する。
実験の結果,35倍高速で145Hzのスループットで最先端性能を実現することができた。
詳細とコードは、すべてオープンソースになる。
関連論文リスト
- Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Generalizing Interactive Backpropagating Refinement for Dense Prediction [0.0]
本稿では,G-BRSレイヤの集合を導入し,グローバル・ローカライズド・リファインメントとローカライズド・リファインメントの両立を可能にした。
提案手法は,数クリックで既存の事前訓練された最先端モデルの性能を向上する。
論文 参考訳(メタデータ) (2021-12-21T03:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。