論文の概要: Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.20612v1
- Date: Tue, 27 May 2025 01:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.334365
- Title: Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models
- Title(参考訳): Roboflow100-VL:視覚言語モデルのためのマルチドメインオブジェクト検出ベンチマーク
- Authors: Peter Robicheaux, Matvei Popov, Anish Madan, Isaac Robinson, Joseph Nelson, Deva Ramanan, Neehar Peri,
- Abstract要約: 本稿では,100個のマルチモーダルオブジェクト検出データセットの大規模コレクションであるRoboflow100-VLを紹介する。
我々は、ゼロショット、少数ショット、半教師付き、完全教師付き設定で、我々のベンチマークの最先端モデルを評価する。
- 参考スコア(独自算出の注目度): 35.79522480146796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) trained on internet-scale data achieve remarkable zero-shot detection performance on common objects like car, truck, and pedestrian. However, state-of-the-art models still struggle to generalize to out-of-distribution classes, tasks and imaging modalities not typically found in their pre-training. Rather than simply re-training VLMs on more visual data, we argue that one should align VLMs to new concepts with annotation instructions containing a few visual examples and rich textual descriptions. To this end, we introduce Roboflow100-VL, a large-scale collection of 100 multi-modal object detection datasets with diverse concepts not commonly found in VLM pre-training. We evaluate state-of-the-art models on our benchmark in zero-shot, few-shot, semi-supervised, and fully-supervised settings, allowing for comparison across data regimes. Notably, we find that VLMs like GroundingDINO and Qwen2.5-VL achieve less than 2% zero-shot accuracy on challenging medical imaging datasets within Roboflow100-VL, demonstrating the need for few-shot concept alignment. Our code and dataset are available at https://github.com/roboflow/rf100-vl/ and https://universe.roboflow.com/rf100-vl/
- Abstract(参考訳): インターネット規模のデータに基づいて訓練された視覚言語モデル(VLM)は、車、トラック、歩行者などの一般的なオブジェクトに対して、驚くべきゼロショット検出性能を達成する。
しかし、最先端のモデルは、通常訓練前のトレーニングでは見つからない、配布外のクラス、タスク、画像のモダリティに一般化するのに依然として苦労している。
よりビジュアルなデータでVLMを再学習する代わりに、VLMをいくつかの視覚的な例とリッチなテキスト記述を含むアノテーション命令で新しい概念に合わせるべきだと論じる。
この目的のために,本研究では,VLM事前学習では一般的ではない多様な概念を持つ,100個のマルチモーダルオブジェクト検出データセットの大規模コレクションであるRoboflow100-VLを紹介する。
我々は、ゼロショット、少数ショット、半教師付き、完全教師付き設定で、我々のベンチマークの最先端モデルを評価し、データレギュラー間の比較を可能にした。
特に、GroundingDINOやQwen2.5-VLのようなVLMは、Roboflow100-VL内の挑戦的な医療画像データセットに対して2%未満のゼロショット精度を実現し、少数ショットの概念アライメントの必要性を示している。
私たちのコードとデータセットはhttps://github.com/roboflow/rf100-vl/とhttps://universe.roboflow.com/rf100-vl/で利用可能です。
関連論文リスト
- VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。
ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文 参考訳(メタデータ) (2024-01-23T01:25:00Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。
本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。
このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文 参考訳(メタデータ) (2022-11-17T18:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。