論文の概要: Region-Level Context-Aware Multimodal Understanding
- arxiv url: http://arxiv.org/abs/2508.12263v1
- Date: Sun, 17 Aug 2025 07:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.644511
- Title: Region-Level Context-Aware Multimodal Understanding
- Title(参考訳): 領域レベルコンテキストを考慮したマルチモーダル理解
- Authors: Hongliang Wei, Xianqi Zhang, Xingtao Wang, Xiaopeng Fan, Debin Zhao,
- Abstract要約: 地域レベルのコンテキスト対応マルチモーダル理解(RCMU)は、よりコンテキスト対応のマルチモーダル理解のためにオブジェクトに関連するテキストコンテキストを統合する能力である。
MLLMにRCMU機能を持たせるために、領域レベルのコンテキスト対応ビジュアルインストラクションチューニング(RCVIT)を提案する。
複数のRCMUタスクをカバーする大規模ビジュアルインストラクションチューニングデータセットであるRCMUデータセットを紹介する。
また、RCMUにおけるMLLMの性能とマルチモーダルパーソナライズされた理解タスクを評価するための総合的なベンチマークであるRC&P-Benchを提案する。
- 参考スコア(独自算出の注目度): 25.945640599063857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress, existing research on Multimodal Large Language Models (MLLMs) mainly focuses on general visual understanding, overlooking the ability to integrate textual context associated with objects for a more context-aware multimodal understanding -- an ability we refer to as Region-level Context-aware Multimodal Understanding (RCMU). To address this limitation, we first formulate the RCMU task, which requires models to respond to user instructions by integrating both image content and textual information of regions or objects. To equip MLLMs with RCMU capabilities, we propose Region-level Context-aware Visual Instruction Tuning (RCVIT), which incorporates object information into the model input and enables the model to utilize bounding box coordinates to effectively associate objects' visual content with their textual information. To address the lack of datasets, we introduce the RCMU dataset, a large-scale visual instruction tuning dataset that covers multiple RCMU tasks. We also propose RC\&P-Bench, a comprehensive benchmark that can evaluate the performance of MLLMs in RCMU and multimodal personalized understanding tasks. Additionally, we propose a reference-free evaluation metric to perform a comprehensive and fine-grained evaluation of the region-level context-aware image descriptions. By performing RCVIT on Qwen2-VL models with the RCMU dataset, we developed RC-Qwen2-VL models. Experimental results indicate that RC-Qwen2-VL models not only achieve outstanding performance on multiple RCMU tasks but also demonstrate successful applications in multimodal RAG and personalized conversation. Our data, model and benchmark are available at https://github.com/hongliang-wei/RC-MLLM
- Abstract(参考訳): これまでのMLLM(Multimodal Large Language Models)の研究は、大きな進歩にもかかわらず、主に一般的な視覚的理解に焦点を当てており、よりコンテキスト対応のマルチモーダル理解(RCMU)のためにオブジェクトに関連するテキストコンテキストを統合する能力を見越している。
この制限に対処するために、まずRCMUタスクを定式化し、領域やオブジェクトの画像内容とテキスト情報を統合することにより、モデルがユーザ指示に応答するように要求する。
モデル入力にオブジェクト情報を組み込んだ領域レベルのコンテキスト対応ビジュアルインストラクションチューニング(RCVIT)を提案し,境界ボックス座標を用いてオブジェクトの視覚内容とテキスト情報とを効果的に関連付ける。
データセットの欠如に対処するため,複数のRCMUタスクをカバーする大規模ビジュアルインストラクションチューニングデータセットであるRCMUデータセットを紹介した。
また、RCMUにおけるMLLMの性能とマルチモーダルパーソナライズされた理解タスクを評価するための総合的なベンチマークRC\&P-Benchを提案する。
さらに,領域レベルの文脈対応画像記述を包括的かつきめ細かな評価を行うための基準フリー評価指標を提案する。
RCMUデータセットを用いてQwen2-VLモデル上でRCITを実行することにより、RC-Qwen2-VLモデルを開発した。
実験の結果,RC-Qwen2-VLモデルは複数のRCMUタスクにおいて優れた性能を発揮するだけでなく,マルチモーダルRAGやパーソナライズされた会話における成功例も示している。
私たちのデータ、モデル、ベンチマークはhttps://github.com/hongliang-wei/RC-MLLMで公開されています。
関連論文リスト
- Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。