Fugu-MT 論文翻訳(概要): MMRA: A Benchmark for Multi-granularity Multi-image Relational Association

論文の概要: MMRA: A Benchmark for Multi-granularity Multi-image Relational Association

arxiv url: http://arxiv.org/abs/2407.17379v1
Date: Wed, 24 Jul 2024 15:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 13:15:22.833547
Title: MMRA: A Benchmark for Multi-granularity Multi-image Relational Association
Title（参考訳）: MMRA:マルチグラニュラリティ・マルチイメージ・リレーショナル・アソシエーションのためのベンチマーク
Authors: Siwei Wu, Kang Zhu, Yu Bai, Yiming Liang, Yizhi Li, Haoning Wu, Jiaheng Liu, Ruibo Liu, Xingwei Qu, Xuxin Cheng, Ge Zhang, Wenhao Huang, Chenghua Lin,
Abstract要約: マルチモーダルベンチマークは、主に画像内の客観的事実や特定のトピックに関連する潜在的な知識に焦点を当てるが、複数の画像間の関連性を見落としている。 textbf1026サンプルからなるtextbfMulti-granularity textbfMulti-image textbfRelational textbfAssociation ベンチマークである textbfMMRA ベンチマークを精巧にキュレートする。我々の実験は、MMRで、
参考スコア（独自算出の注目度）: 36.357340171602814
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Given the remarkable success that large visual language models (LVLMs) have achieved in image perception tasks, the endeavor to make LVMLs perceive the world like humans is drawing increasing attention. Current multi-modal benchmarks mainly focus on the objective fact or certain topic related potential knowledge within a image, but overlook the associative relations between multiple images. Therefore, we define a multi-image relation association task, and meticulously curate \textbf{MMRA} benchmark, a \textbf{M}ulti-granularity \textbf{M}ulti-image \textbf{R}elational \textbf{A}ssociation benchmark, consisted of \textbf{1026} samples. In order to systematically and comprehensively evaluate mainstream LVLMs, we establish an associational relation system among images that contain \textbf{11 subtasks} (e.g, UsageSimilarity, SubEvent, etc.) at two granularity levels (i.e., "\textbf{image}" and "\textbf{entity}") according to the relations in ConceptNet. Our experiments demonstrate that, on our MMRA benchmark, current mainstream LVLMs all have their own advantages and disadvantages across different subtasks. It is worth noting that, at the entity level, the performance of all models is worse than that of them at the image level, indicating that the fine-grained multi-image perception task is still challenging for LVLMs. The tasks related to spatial perception are relatively difficult for LVLMs to handle. Furthermore, we find that LVMLs exhibit a good ability to perceive image details, and the key to enhancing their multi-image association capability is to strengthen the reasoning ability of their language model component. All our codes and data are released at htt\url{https://github.com/Wusiwei0410/MMRA}.
Abstract（参考訳）: 画像認識タスクにおいて大きな視覚言語モデル(LVLM)が達成されたことを考えると、LVMLが人間のように世界を知覚する努力が注目されている。現在のマルチモーダルベンチマークは、主に画像内の客観的事実や特定のトピックに関連する潜在的な知識に焦点を当てているが、複数の画像間の関連性を見落としている。そこで,本研究では,多像関係関連課題を定義した上で,厳密にキュレートした \textbf{MMRA} ベンチマーク, \textbf{M}ulti-granularity \textbf{M}ulti-image \textbf{R}elational \textbf{A}ssociation ベンチマーク,および \textbf{1026} サンプルを作成した。主流のLVLMを体系的かつ包括的に評価するために,コンセプションネットの関連性に基づき,2つの粒度レベルで \textbf{11 subtasks} (UsageSimilarity, SubEventなど)を含む画像間の関連性システムを構築した。我々の実験は、MMRAベンチマークにおいて、現在のLVLMは、それぞれ異なるサブタスクにまたがって独自の利点と欠点を持っていることを示した。実体レベルでは、すべてのモデルの性能は画像レベルではそれよりも悪く、細粒度のマルチイメージ認識タスクはLVLMにとって依然として困難な課題であることを示すことに注意する必要がある。空間知覚に関わるタスクは、LVLMが扱うのが比較的難しい。さらに、LVMLは画像の詳細を知覚する優れた能力を示し、その多イメージ関連性を高める鍵は、言語モデルコンポーネントの推論能力を強化することである。すべてのコードとデータはhtt\url{https://github.com/Wusiwei0410/MMRA}でリリースされます。

関連論文リスト

Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文参考訳（メタデータ） (2024-12-04T19:01:06Z)
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。 MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文参考訳（メタデータ） (2024-08-22T11:57:16Z)
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。 MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文参考訳（メタデータ） (2024-08-05T17:56:41Z)
Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文参考訳（メタデータ） (2024-07-16T01:28:06Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文参考訳（メタデータ） (2024-03-19T15:01:19Z)
Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。しかし、複数の画像を含む文脈を理解するには不十分である。本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文参考訳（メタデータ） (2024-02-19T14:59:07Z)
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文参考訳（メタデータ） (2023-11-20T15:56:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。