論文の概要: OpenGVL - Benchmarking Visual Temporal Progress for Data Curation
- arxiv url: http://arxiv.org/abs/2509.17321v1
- Date: Mon, 22 Sep 2025 02:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.214599
- Title: OpenGVL - Benchmarking Visual Temporal Progress for Data Curation
- Title(参考訳): OpenGVL - データキュレーションのための視覚的時間的進歩のベンチマーク
- Authors: Paweł Budzianowski, Emilia Wiśnios, Gracjan Góral, Igor Kulakov, Viktor Petrenko, Krzysztof Walas,
- Abstract要約: データ不足は、ロボティクスの進歩を推し進める上で最も制限される要因の1つだ。
野生で利用可能なロボットデータの量は指数関数的に増えている。
信頼性の高い時間的タスク完了予測は、このデータを自動アノテートし、大規模にキュレートするのに役立ちます。
- 参考スコア(独自算出の注目度): 2.0935101589828244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scarcity remains one of the most limiting factors in driving progress in robotics. However, the amount of available robotics data in the wild is growing exponentially, creating new opportunities for large-scale data utilization. Reliable temporal task completion prediction could help automatically annotate and curate this data at scale. The Generative Value Learning (GVL) approach was recently proposed, leveraging the knowledge embedded in vision-language models (VLMs) to predict task progress from visual observations. Building upon GVL, we propose OpenGVL, a comprehensive benchmark for estimating task progress across diverse challenging manipulation tasks involving both robotic and human embodiments. We evaluate the capabilities of publicly available open-source foundation models, showing that open-source model families significantly underperform closed-source counterparts, achieving only approximately $70\%$ of their performance on temporal progress prediction tasks. Furthermore, we demonstrate how OpenGVL can serve as a practical tool for automated data curation and filtering, enabling efficient quality assessment of large-scale robotics datasets. We release the benchmark along with the complete codebase at \href{github.com/budzianowski/opengvl}{OpenGVL}.
- Abstract(参考訳): データ不足は、ロボティクスの進歩を推し進める上で最も制限される要因の1つだ。
しかし、現場で利用可能なロボットデータの量は指数関数的に増加しており、大規模データ利用の新しい機会を生み出している。
信頼性の高い時間的タスク完了予測は、このデータを自動アノテートし、大規模にキュレートするのに役立ちます。
視覚的観察からタスク進捗を予測するために、視覚言語モデル(VLM)に埋め込まれた知識を活用して、生成価値学習(GVL)アプローチが最近提案された。
GVL をベースとした OpenGVL は,ロボットと人体の両方が関与する多種多様な操作タスクに対して,タスク進捗を推定するための総合的なベンチマークである。
我々は,オープンソースファウンデーションモデルの性能を評価し,オープンソースモデルファウンデーションファミリーがオープンソースファウンデーションを著しく過小評価していることを示す。
さらに,OpenGVLが自動データキュレーションとフィルタリングの実用的なツールとして機能し,大規模ロボティクスデータセットの効率的な品質評価を可能にすることを実証する。
We release the benchmark with the complete code at \href{github.com/budzianowski/opengvl}{OpenGVL}。
関連論文リスト
- TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。