論文の概要: MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs
- arxiv url: http://arxiv.org/abs/2410.12332v2
- Date: Tue, 22 Jul 2025 08:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 15:16:09.965023
- Title: MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs
- Title(参考訳): MC-Bench:MLLM時代のマルチコンテキストビジュアルグラウンドのベンチマーク
- Authors: Yunqiu Xu, Linchao Zhu, Yi Yang,
- Abstract要約: 本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
- 参考スコア(独自算出の注目度): 61.56904387052982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multimodal large language models (MLLMs) have demonstrated extraordinary vision-language understanding capabilities, their abilities to solve instance-level visual-language problems beyond a single image warrant further exploration. To assess these unproven abilities of MLLMs, this paper proposes a new visual grounding task called multi-context visual grounding, which aims to localize instances of interest across multiple images based on open-ended text prompts. In order to facilitate this research, we construct a new dataset MC-Bench that features 2K high-quality and manually annotated samples. Each sample consists of an instance-level labeled image pair and a corresponding text prompt that indicates the target instances in the images. These text prompts are highly open-ended and follow three distinct styles, covering 20 practical skills. We benchmark over 20 state-of-the-art MLLMs and foundation models with potential multi-context visual grounding capabilities, along with our developed simple yet effective agentic baseline and a finetuned baseline by multi-context instruction tuning. Our evaluation reveals a non-trivial performance gap between existing MLLMs and humans, along with some insightful observations that suggest potential future directions. We hope that MC-Bench and our empirical findings encourage the research community to further advance the untapped potentials of MLLMs in instance-level tasks, particularly in multi-image contexts. Project page: https://xuyunqiu.github.io/MC-Bench.
- Abstract(参考訳): MLLM(Multimodal large language model)は、異常な視覚言語理解能力を示したが、インスタンスレベルの視覚言語問題を解決する能力は、1つの画像保証以上のものである。
MLLMのこれらの未証明能力を評価するために,オープンエンドテキストプロンプトに基づいて複数の画像にまたがる関心のインスタンスをローカライズすることを目的とした,マルチコンテキストビジュアルグラウンドティングと呼ばれる新しい視覚的グラウンドニングタスクを提案する。
そこで本研究では,2Kの高品質かつ手作業による注釈付きサンプルを特徴とするMC-Benchを新たに構築する。
各サンプルは、画像中のターゲットインスタンスを示すインスタンスレベルのラベル付きイメージペアと対応するテキストプロンプトで構成されている。
これらのテキストプロンプトは非常にオープンで、3つの異なるスタイルに従っており、20の実践的スキルをカバーしている。
提案手法は,20以上の最先端MLLMおよび基礎モデルを用いて,マルチコンテキスト・インストラクション・チューニングによる簡易かつ効果的なエージェント・ベースラインと微調整されたベースラインとともに,潜在的にマルチコンテキスト・ヴィジュアルグラウンド機能を有する基盤モデルをベンチマークする。
評価の結果,既存のMLLMと人間の間には非自明な性能差がみられ,将来的な方向性を示す洞察力のある観察結果が得られた。
MC-Benchと我々の経験的発見が、特にマルチイメージの状況において、MLLMの未解決の可能性をさらに前進させることを願っている。
プロジェクトページ: https://xuyunqiu.github.io/MC-Bench
関連論文リスト
- True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models [10.41857522464292]
本稿では,MultiModal Needle-in-a-haystack(MMNeedle)ベンチマークを導入する。
画像ステッチを用いて、入力コンテキスト長をさらに増加させ、サブイメージレベルの検索のためのラベルを自動的に生成するプロトコルを開発する。
我々は、APIベースモデルとオープンソースモデルの両方を含む最先端のMLLMを評価した。
論文 参考訳(メタデータ) (2024-06-17T05:54:06Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - MileBench: Benchmarking MLLMs in Long Context [31.211260223575092]
MLLMのMultImodal Long-contExt機能をテストするためのベンチマークであるMileBenchを紹介する。
MLLMの長文適応能力と長文シナリオにおけるタスク完了能力を体系的に評価する。
その結果、オープンソースGPT-4oは他よりも優れているが、ほとんどのオープンソースMLLMは長期的文脈で苦労していることがわかった。
論文 参考訳(メタデータ) (2024-04-29T09:19:05Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。