論文の概要: FindIt: A Format-Informed Visual Detection Benchmark for Generalist Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2606.04282v1
- Date: Tue, 02 Jun 2026 23:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.424025
- Title: FindIt: A Format-Informed Visual Detection Benchmark for Generalist Multimodal LLMs
- Title(参考訳): FindIt: 汎用マルチモーダルLCMのためのフォーマットインフォームドビジュアル検出ベンチマーク
- Authors: Eshika Khandelwal, Jingjing Pan, Mingfang Zhang, Quan Kong, Lorenzo Garattoni, Hilde Kuehne,
- Abstract要約: 本稿では,ジェネラリストMLLMの迅速なローカライゼーション能力を評価するために設計された,最初の包括的なベンチマークを紹介する。
我々のベンチマークは、オブジェクト検出、参照式検出、インスタンスレベルの検出、ビデオベースの検出の4つの中核的なタスクカテゴリにまたがっている。
オープンソースとプロプライエタリなMLLMの多種多様なセットを評価し,その性能と限界を詳細に分析する。
- 参考スコア(独自算出の注目度): 37.64883536754805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) are predominantly evaluated on free-form vision-language tasks such as visual question answering, captioning, and summarization. However, their practical use is rapidly expanding to more structured computer vision settings, where users prompt models to perform localization-centric tasks such as object detection, often within larger agentic or decision-making systems. Despite this shift, there is currently no standardized benchmark that systematically evaluates these capabilities at scale. In this work, we introduce the first comprehensive benchmark specifically designed to assess the promptable localization abilities of generalist MLLMs. Our benchmark spans four core task categories: object detection, referring expression detection, instance-level detection, and video-based detection. To enable consistent and fair evaluation, we develop a unified framework that standardizes inputs, enforces parsable bounding box outputs, and defines transparent evaluation protocols across tasks. Using this suite, we evaluate a diverse set of open-source and proprietary MLLMs, providing an in-depth analysis of their performance and limitations. Beyond accuracy, we examine models' ability to adhere to output format specifications, showing that current systems are highly sensitive to formatting constraints and often fail to generalize even to minor variations. Our results highlight both the strengths and shortcomings of state-of-the-art MLLMs in localization settings, and point toward important directions for improving multimodal model design and evaluation.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は視覚的質問応答、キャプション、要約などの自由形式の視覚言語タスクにおいて主に評価される。
しかし、その実用的利用は急速に構造化されたコンピュータビジョン設定へと拡大し、ユーザーはより大きなエージェントや意思決定システム内で、オブジェクト検出などのローカライズ中心のタスクをモデルに実行するよう促している。
この移行にもかかわらず、これらの機能を大規模に体系的に評価する標準ベンチマークは今のところ存在しない。
本研究では,ジェネラリストMLLMの迅速なローカライゼーション能力を評価するために設計された,最初の包括的なベンチマークを紹介する。
我々のベンチマークは、オブジェクト検出、参照式検出、インスタンスレベルの検出、ビデオベースの検出の4つの中核的なタスクカテゴリにまたがっている。
一貫性と公正な評価を可能にするため,入力を標準化し,解析可能なバウンディングボックス出力を適用し,タスク間の透過的な評価プロトコルを定義する統一フレームワークを開発した。
このスイートを用いて、さまざまなオープンソースおよびプロプライエタリなMLLMを評価し、それらの性能と限界を詳細に分析する。
精度を超えて、出力フォーマット仕様に準拠するモデルの能力を検証し、現在のシステムはフォーマット制約に非常に敏感であり、小さなバリエーションであっても一般化に失敗することが多いことを示す。
本研究は, ローカライズ設定における最先端MLLMの長所と短所を両立させ, マルチモーダルモデル設計・評価における重要な方向性を示すものである。
関連論文リスト
- OpenCompass: A Universal Evaluation Platform for Large Language Models [62.59671563145442]
汎用大規模言語モデル (LLM) は, 技術の進歩において重要なリンクとなっている。
メインストリームベンチマークデータセットは、タスクタイプの多様性、一貫性のない評価基準、データと処理の断片化といった課題に直面している。
本稿では,ワンストップ,スケーラブル,高精度な汎用評価プラットフォームであるOpen LLMをオープンソースとして提案する。
論文 参考訳(メタデータ) (2026-05-19T02:50:11Z) - IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2025-10-16T02:48:05Z) - The Rarity Blind Spot: A Framework for Evaluating Statistical Reasoning in LLMs [14.21269233160436]
そこで我々はDFM(Distinctive Feature Mining)を導入し,グローバルな文脈では稀な10~40個の文書と表面的特徴をモデルで分析する手法を提案する。
この設定は、検索ではなく統計的推論が重要となる候補選択や製品分化といった現実のシナリオを反映している。
DiFBenchを用いて、10の最先端LCMにおいて特徴的特徴マイニングを大規模に評価する。
論文 参考訳(メタデータ) (2025-08-29T21:23:48Z) - InspectVLM: Unified in Theory, Unreliable in Practice [0.0]
統一視覚言語モデル(VLM)は、単一の言語駆動インタフェース内で複数の視覚タスクをフレキシブルにすることで、コンピュータビジョンパイプラインの合理化を約束する。
InspectMMをトレーニングしたFlorence-2ベースのVLMであるInspectVLMを用いて,この統一パラダイムの有効性を批判的に評価する。
論文 参考訳(メタデータ) (2025-08-03T21:09:35Z) - Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning [26.35257570870916]
Visual-Linguistic Agent (VLA)は、MLLMのリレーショナル推論強度と従来の物体検出器の正確な位置決め能力を組み合わせた協調的なフレームワークである。
VLAは空間的推論とオブジェクトローカライゼーションの両方を強化し、マルチモーダル理解における重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-15T15:02:06Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。