論文の概要: MMRA: A Benchmark for Multi-granularity Multi-image Relational Association
- arxiv url: http://arxiv.org/abs/2407.17379v1
- Date: Wed, 24 Jul 2024 15:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:15:22.833547
- Title: MMRA: A Benchmark for Multi-granularity Multi-image Relational Association
- Title(参考訳): MMRA:マルチグラニュラリティ・マルチイメージ・リレーショナル・アソシエーションのためのベンチマーク
- Authors: Siwei Wu, Kang Zhu, Yu Bai, Yiming Liang, Yizhi Li, Haoning Wu, Jiaheng Liu, Ruibo Liu, Xingwei Qu, Xuxin Cheng, Ge Zhang, Wenhao Huang, Chenghua Lin,
- Abstract要約: マルチモーダルベンチマークは、主に画像内の客観的事実や特定のトピックに関連する潜在的な知識に焦点を当てるが、複数の画像間の関連性を見落としている。
textbf1026サンプルからなるtextbfMulti-granularity textbfMulti-image textbfRelational textbfAssociation ベンチマークである textbfMMRA ベンチマークを精巧にキュレートする。
我々の実験は、MMRで、
- 参考スコア(独自算出の注目度): 36.357340171602814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the remarkable success that large visual language models (LVLMs) have achieved in image perception tasks, the endeavor to make LVMLs perceive the world like humans is drawing increasing attention. Current multi-modal benchmarks mainly focus on the objective fact or certain topic related potential knowledge within a image, but overlook the associative relations between multiple images. Therefore, we define a multi-image relation association task, and meticulously curate \textbf{MMRA} benchmark, a \textbf{M}ulti-granularity \textbf{M}ulti-image \textbf{R}elational \textbf{A}ssociation benchmark, consisted of \textbf{1026} samples. In order to systematically and comprehensively evaluate mainstream LVLMs, we establish an associational relation system among images that contain \textbf{11 subtasks} (e.g, UsageSimilarity, SubEvent, etc.) at two granularity levels (i.e., "\textbf{image}" and "\textbf{entity}") according to the relations in ConceptNet. Our experiments demonstrate that, on our MMRA benchmark, current mainstream LVLMs all have their own advantages and disadvantages across different subtasks. It is worth noting that, at the entity level, the performance of all models is worse than that of them at the image level, indicating that the fine-grained multi-image perception task is still challenging for LVLMs. The tasks related to spatial perception are relatively difficult for LVLMs to handle. Furthermore, we find that LVMLs exhibit a good ability to perceive image details, and the key to enhancing their multi-image association capability is to strengthen the reasoning ability of their language model component. All our codes and data are released at htt\url{https://github.com/Wusiwei0410/MMRA}.
- Abstract(参考訳): 画像認識タスクにおいて大きな視覚言語モデル(LVLM)が達成されたことを考えると、LVMLが人間のように世界を知覚する努力が注目されている。
現在のマルチモーダルベンチマークは、主に画像内の客観的事実や特定のトピックに関連する潜在的な知識に焦点を当てているが、複数の画像間の関連性を見落としている。
そこで,本研究では,多像関係関連課題を定義した上で,厳密にキュレートした \textbf{MMRA} ベンチマーク, \textbf{M}ulti-granularity \textbf{M}ulti-image \textbf{R}elational \textbf{A}ssociation ベンチマーク,および \textbf{1026} サンプルを作成した。
主流のLVLMを体系的かつ包括的に評価するために,コンセプションネットの関連性に基づき,2つの粒度レベルで \textbf{11 subtasks} (UsageSimilarity, SubEventなど)を含む画像間の関連性システムを構築した。
我々の実験は、MMRAベンチマークにおいて、現在のLVLMは、それぞれ異なるサブタスクにまたがって独自の利点と欠点を持っていることを示した。
実体レベルでは、すべてのモデルの性能は画像レベルではそれよりも悪く、細粒度のマルチイメージ認識タスクはLVLMにとって依然として困難な課題であることを示すことに注意する必要がある。
空間知覚に関わるタスクは、LVLMが扱うのが比較的難しい。
さらに、LVMLは画像の詳細を知覚する優れた能力を示し、その多イメージ関連性を高める鍵は、言語モデルコンポーネントの推論能力を強化することである。
すべてのコードとデータはhtt\url{https://github.com/Wusiwei0410/MMRA}でリリースされます。
関連論文リスト
- GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models [10.41857522464292]
本稿では,MultiModal Needle-in-a-haystack(MMNeedle)ベンチマークを導入する。
画像ステッチを用いて、入力コンテキスト長をさらに増加させ、サブイメージレベルの検索のためのラベルを自動的に生成するプロトコルを開発する。
我々は、APIベースモデルとオープンソースモデルの両方を含む最先端のMLLMを評価した。
論文 参考訳(メタデータ) (2024-06-17T05:54:06Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - CoLLaVO: Crayon Large Language and Vision mOdel [42.182009352159]
現在のビジョン言語モデルが本当に品質の高いオブジェクトレベルの画像理解能力を持っているかどうかは、まだ解明されていない。
その結果,現在のVLMのイメージ理解能力は,視覚言語(VL)タスクにおけるゼロショット性能と強く相関していることが判明した。
オブジェクトレベルの画像理解を強化するために,Crayon Large Language and Vision mOdel (CoLLaVO)を提案する。
本稿では,視覚的指導指導中に,オブジェクトレベルのイメージ理解を忘れずに維持するためのDual QLoRAの学習戦略を提案する。
論文 参考訳(メタデータ) (2024-02-17T11:03:02Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。