Fugu-MT 論文翻訳(概要): Experiences from Benchmarking Vision-Language-Action Models for Robotic Manipulation

論文の概要: Experiences from Benchmarking Vision-Language-Action Models for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2511.11298v1
Date: Fri, 14 Nov 2025 13:35:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-17 22:42:18.628258
Title: Experiences from Benchmarking Vision-Language-Action Models for Robotic Manipulation
Title（参考訳）: ロボットマニピュレーションのためのビジョンランゲージ・アクションモデルのベンチマークからの経験
Authors: Yihao Zhang, Yuankai Qi, Xi Zheng,
Abstract要約: 本稿では,4種類のVLAをベンチマークした経験を報告する。我々は,3つの重要な側面に沿って性能を計測するtextbf Standardized Evaluation frameworkを構築した。 VLAモデルアーキテクチャ間のトレードオフとして,精度,一般化,デプロイメントコストのバランスが考えられる。
参考スコア（独自算出の注目度）: 22.40720239761228
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models applied in robotics, particularly \textbf{Vision--Language--Action (VLA)} models, hold great promise for achieving general-purpose manipulation. Yet, systematic real-world evaluations and cross-model comparisons remain scarce. This paper reports our \textbf{empirical experiences} from benchmarking four representative VLAs -- \textbf{ACT}, \textbf{OpenVLA--OFT}, \textbf{RDT-1B}, and \boldmath{$π_0$} -- across four manipulation tasks conducted in both simulation and on the \textbf{ALOHA Mobile} platform. We establish a \textbf{standardized evaluation framework} that measures performance along three key dimensions: (1) \textit{accuracy and efficiency} (success rate and time-to-success), (2) \textit{adaptability} across in-distribution, spatial out-of-distribution, and instance-plus-spatial out-of-distribution settings, and (3) \textit{language instruction-following accuracy}. Through this process, we observe that \boldmath{$π_0$} demonstrates superior adaptability in out-of-distribution scenarios, while \textbf{ACT} provides the highest stability in-distribution. Further analysis highlights differences in computational demands, data-scaling behavior, and recurring failure modes such as near-miss grasps, premature releases, and long-horizon state drift. These findings reveal practical trade-offs among VLA model architectures in balancing precision, generalization, and deployment cost, offering actionable insights for selecting and deploying VLAs in real-world robotic manipulation tasks.
Abstract（参考訳）: ロボット工学、特に textbf{Vision--Language--Action (VLA) モデルに適用された基礎モデルは、汎用的な操作を実現するための大きな約束を持っている。しかし、体系的な実世界の評価とモデル間比較は依然として乏しい。本稿では,4つの代表的VLA -- \textbf{ACT}, \textbf{OpenVLA--OFT}, \textbf{RDT-1B}, \boldmath{$π_0$} -- のベンチマークから,シミュレーションと \textbf{ALOHA Mobile} プラットフォーム上で実行される4つの操作タスクについて報告する。我々は,(1) 精度と効率(success rate and time-to-success),(2) 分布内,空間外,インスタンス+空間外,(3) 分布外設定の3つの重要な側面に沿って,性能を計測する「textbf{standardized Evaluation framework」を構築した。この過程を通して、 \boldmath{$π_0$} は分布外シナリオにおいて優れた適応性を示すのに対し、 \textbf{ACT} は分布内における最高安定性を提供する。さらに分析は、計算要求、データスケーリングの振る舞い、ニアミスグリップ、早期リリース、長期状態のドリフトのような繰り返し発生する障害モードの違いを強調している。これらの結果から,実世界のロボット操作タスクにおいて,VLAを選択し,デプロイするための実用的な洞察を提供するとともに,精度,一般化,デプロイメントコストのバランスをとる上で,VLAモデルアーキテクチャ間の実践的なトレードオフを明らかにした。

関連論文リスト

SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation [65.6201974979119]
本稿では,効率的なロボットマニピュレーションのためのセマンティックスペーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークSemanticVLAを提案する。 SemanticVLAはOpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。
論文参考訳（メタデータ） (2025-11-13T17:24:37Z)
TRACE: Textual Reasoning for Affordance Coordinate Extraction [4.374024319540872]
VLM(Vision-Language Models)は、ロボット操作に必要な正確な空間的余裕に高レベルの命令を翻訳するのに苦労する。本稿では,Reasoningのテキスト・チェーンをアベイランス・予測プロセスに統合する新しい手法であるTRACEを紹介する。実験の結果,提案するTRACEモデルでは最先端性能が得られ,Where2Placeベンチマークでは48.1%の精度が得られた。
論文参考訳（メタデータ） (2025-11-03T19:13:26Z)
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。 DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。 Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文参考訳（メタデータ） (2025-10-31T16:32:12Z)
Auto-Rubric: Learning to Extract Generalizable Criteria for Reward Modeling [37.237020102873]
リワードモデルは、大規模言語モデルと人間の価値の整合に不可欠であるが、その開発はコストのかかる選好データセットと低い解釈可能性によって妨げられている。検証誘導型 textbfPropose-Evaluate-Revise パイプラインを用いて,高品質でクエリ固有のルーリックを推論する,トレーニング不要のフレームワークを構築した。わずか70の選好ペア(ソースデータの1.5%)を使用することで、Qwen3-8Bのようなより小型のモデルでも、専門的で完全に訓練されたモデルよりも優れた性能を発揮する。
論文参考訳（メタデータ） (2025-10-20T09:01:37Z)
Accelerate Scaling of LLM Finetuning via Quantifying the Coverage and Depth of Instruction Set [37.26992936545316]
スーパーバイドファインチューニング(SFT)に使用されるデータのスケーリングは、モデル性能の比例的なゲインを保証するものではない。この研究は、SFTスケーラビリティを管理する2つの基本的なデータセット特性を特定する。モデルに依存しないデータ選択フレームワークである textbfInformation Landscape Approximation (ILA) を提案する。
論文参考訳（メタデータ） (2025-09-08T09:22:57Z)
Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文参考訳（メタデータ） (2025-09-02T07:51:59Z)
CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。 CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文参考訳（メタデータ） (2025-06-24T17:30:27Z)
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。 TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文参考訳（メタデータ） (2025-02-05T03:13:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。