Fugu-MT 論文翻訳(概要): Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models

論文の概要: Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models

arxiv url: http://arxiv.org/abs/2505.20612v2
Date: Mon, 16 Jun 2025 19:08:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 15:22:20.723796
Title: Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models
Title（参考訳）: Roboflow100-VL:視覚言語モデルのためのマルチドメインオブジェクト検出ベンチマーク
Authors: Peter Robicheaux, Matvei Popov, Anish Madan, Isaac Robinson, Joseph Nelson, Deva Ramanan, Neehar Peri,
Abstract要約: 本稿では,100個のマルチモーダルオブジェクト検出データセットの大規模コレクションであるRoboflow100-VLを紹介する。我々は、ゼロショット、少数ショット、半教師付き、完全教師付き設定で、我々のベンチマークの最先端モデルを評価する。 CVPR 2025 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
参考スコア（独自算出の注目度）: 35.79522480146796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) trained on internet-scale data achieve remarkable zero-shot detection performance on common objects like car, truck, and pedestrian. However, state-of-the-art models still struggle to generalize to out-of-distribution classes, tasks and imaging modalities not typically found in their pre-training. Rather than simply re-training VLMs on more visual data, we argue that one should align VLMs to new concepts with annotation instructions containing a few visual examples and rich textual descriptions. To this end, we introduce Roboflow100-VL, a large-scale collection of 100 multi-modal object detection datasets with diverse concepts not commonly found in VLM pre-training. We evaluate state-of-the-art models on our benchmark in zero-shot, few-shot, semi-supervised, and fully-supervised settings, allowing for comparison across data regimes. Notably, we find that VLMs like GroundingDINO and Qwen2.5-VL achieve less than 2% zero-shot accuracy on challenging medical imaging datasets within Roboflow100-VL, demonstrating the need for few-shot concept alignment. Lastly, we discuss our recent CVPR 2025 Foundational FSOD competition and share insights from the community. Notably, the winning team significantly outperforms our baseline by 16.8 mAP! Our code and dataset are available at https://github.com/roboflow/rf100-vl/ and https://universe.roboflow.com/rf100-vl/
Abstract（参考訳）: インターネット規模のデータに基づいて訓練された視覚言語モデル(VLM)は、車、トラック、歩行者などの一般的なオブジェクトに対して、驚くべきゼロショット検出性能を達成する。しかし、最先端のモデルは、通常訓練前のトレーニングでは見つからない、配布外のクラス、タスク、画像のモダリティに一般化するのに依然として苦労している。よりビジュアルなデータでVLMを再学習する代わりに、VLMをいくつかの視覚的な例とリッチなテキスト記述を含むアノテーション命令で新しい概念に合わせるべきだと論じる。この目的のために,本研究では,VLM事前学習では一般的ではない多様な概念を持つ,100個のマルチモーダルオブジェクト検出データセットの大規模コレクションであるRoboflow100-VLを紹介する。我々は、ゼロショット、少数ショット、半教師付き、完全教師付き設定で、我々のベンチマークの最先端モデルを評価し、データレギュラー間の比較を可能にした。特に、GroundingDINOやQwen2.5-VLのようなVLMは、Roboflow100-VL内の挑戦的な医療画像データセットに対して2%未満のゼロショット精度を実現し、少数ショットの概念アライメントの必要性を示している。最後に、CVPR 2025 Foundational FSODコンペティションについて議論し、コミュニティからの洞察を共有します。特に、優勝チームは、我々のベースラインを16.8mAPで大幅に上回っている。私たちのコードとデータセットはhttps://github.com/roboflow/rf100-vl/とhttps://universe.roboflow.com/rf100-vl/で利用可能です。

関連論文リスト

Evaluating Cell Type Inference in Vision Language Models Under Varying Visual Context [0.16385815610837165]
視覚言語モデル(VLM)は大規模言語モデル(LLM)とともに急速に進歩している。本研究は,GPT-4.1 や Gemini 2.5 Pro などの卓越したVLMの病理組織像分類機能について検討した。
論文参考訳（メタデータ） (2025-06-15T01:50:16Z)
Membership Inference Attacks against Large Vision-Language Models [40.996912464828696]
大規模視覚言語モデル(VLLM)は、様々なアプリケーションシナリオにわたるマルチモーダルタスクを処理するための有望な能力を示す。彼らの出現は、プライベート写真や医療記録などの機密情報を含む可能性があることを考えると、重要なデータセキュリティ上の懸念も引き起こす。 VLLMで不適切な使用データを検出することは、致命的かつ未解決な問題である。
論文参考訳（メタデータ） (2024-11-05T08:35:08Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。 We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文参考訳（メタデータ） (2024-01-23T01:25:00Z)
Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。 CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文参考訳（メタデータ） (2023-12-22T07:42:00Z)
Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。 39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文参考訳（メタデータ） (2023-10-12T17:59:30Z)
ConStruct-VL: Data-Free Continual Structured VL Concepts Learning [57.86651057895222]
本稿では,Continuous Data-Free Structured VL Concepts Learning (ConStruct-VL)ベンチマークを紹介する。本稿では,過去のタスクモデルから過去のタスクの逆リマインダーを生成するAdrial Pseudo-Replay (APR) の新たなアプローチによるデータフリー手法を提案する。このアプローチは、いくつかのレベルのエクスペリエンス再生に適合しながら、すべてのデータフリーメソッドを最大7%上回ります。
論文参考訳（メタデータ） (2022-11-17T18:57:03Z)
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文参考訳（メタデータ） (2022-04-22T04:41:04Z)
TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating Visio-Linguistic Reasoning [25.520406167426135]
本稿では,4つの視覚言語的推論タスクからなる合成データセットであるTraVLRについて述べる。 TraVLRの各例は、シーンを2つのモードで冗長にエンコードし、関連する情報を失うことなく、トレーニングやテスト中にドロップまたは追加することができる。我々は、4つの最先端V+Lモデルの性能を比較し、同じモダリティの試験例でよく機能するが、全てクロスモーダル転送では失敗することを示した。
論文参考訳（メタデータ） (2021-11-21T07:22:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。