論文の概要: VLMs-in-the-Wild: Bridging the Gap Between Academic Benchmarks and Enterprise Reality
- arxiv url: http://arxiv.org/abs/2509.06994v1
- Date: Wed, 03 Sep 2025 05:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.007303
- Title: VLMs-in-the-Wild: Bridging the Gap Between Academic Benchmarks and Enterprise Reality
- Title(参考訳): VLMs-in-the-Wild: 学術ベンチマークとエンタープライズリアリティのギャップを埋める
- Authors: Srihari Bandraupalli, Anupam Purwar,
- Abstract要約: 本稿では,学術評価と企業要件のギャップを埋める包括的枠組みであるVLM-in-the-Wild(ViLD)を紹介する。
我々は,ロゴ検出,OCR,オブジェクト検出,人間の存在と人口統計分析,人間の活動と外観分析,シーン検出,カメラ視点とメディア品質評価,支配的な色,包括的記述,NSFW検出の10つのビジネスクリティカルタスクを定義した。
ViLDの有効性を示すために,実世界の100万枚の画像とビデオのコーパスから慎重に階層化された7500種類のサンプルのベンチマークデータセットを構築した。
- 参考スコア(独自算出の注目度): 0.20482269513546458
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Open-source Vision-Language Models show immense promise for enterprise applications, yet a critical disconnect exists between academic evaluation and enterprise deployment requirements. Current benchmarks rely heavily on multiple-choice questions and synthetic data, failing to capture the complexity of real-world business applications like social media content analysis. This paper introduces VLM-in-the-Wild (ViLD), a comprehensive framework to bridge this gap by evaluating VLMs on operational enterprise requirements. We define ten business-critical tasks: logo detection, OCR, object detection, human presence and demographic analysis, human activity and appearance analysis, scene detection, camera perspective and media quality assessment, dominant colors, comprehensive description, and NSFW detection. To this framework, we bring an innovative BlockWeaver Algorithm that solves the challenging problem of comparing unordered, variably-grouped OCR outputs from VLMs without relying on embeddings or LLMs, achieving remarkable speed and reliability. To demonstrate efficacy of ViLD, we constructed a new benchmark dataset of 7,500 diverse samples, carefully stratified from a corpus of one million real-world images and videos. ViLD provides actionable insights by combining semantic matching (both embedding-based and LLM-as-a-judge approaches), traditional metrics, and novel methods to measure the completeness and faithfulness of descriptive outputs. By benchmarking leading open-source VLMs (Qwen, MIMO, and InternVL) against a powerful proprietary baseline as per ViLD framework, we provide one of the first industry-grounded, task-driven assessment of VLMs capabilities, offering actionable insights for their deployment in enterprise environments.
- Abstract(参考訳): オープンソースのビジョンランゲージモデル(Vision-Language Models)は、エンタープライズアプリケーションにとって大きな可能性を秘めている。
現在のベンチマークでは、ソーシャルメディアのコンテンツ分析のような実世界のビジネスアプリケーションの複雑さを捉えていないため、複数の質問や合成データに大きく依存している。
本稿では,このギャップを埋めるための総合的なフレームワークであるVLM-in-the-Wild(ViLD)を紹介する。
我々は,ロゴ検出,OCR,オブジェクト検出,人間の存在と人口統計分析,人間の活動と外観分析,シーン検出,カメラ視点とメディア品質評価,支配的な色,包括的記述,NSFW検出の10つのビジネスクリティカルタスクを定義した。
本フレームワークでは,組込みやLLMに頼ることなく,VLMから非順序で可変グループ化されたOCR出力を比較することの難しさを解消し,高速化と信頼性を実現する,革新的なBlockWeaverアルゴリズムを提案する。
ViLDの有効性を示すために,実世界の100万枚の画像とビデオのコーパスから慎重に階層化された7500種類のサンプルのベンチマークデータセットを構築した。
ViLDは、セマンティックマッチング(埋め込みベースとLCM-as-a-judgeアプローチの両方)、伝統的なメトリクス、そして記述的出力の完全性と忠実さを測定する新しい方法を組み合わせることで、実行可能な洞察を提供する。
主要なオープンソースVLM(Qwen、MIMO、InternVL)を、ViLDフレームワークごとの強力なプロプライエタリなベースラインに対してベンチマークすることにより、VLMの能力に関する業界初のタスク駆動評価の1つを提供し、エンタープライズ環境への展開に対して実行可能な洞察を提供する。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン
SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。
この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-24T05:13:19Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。