論文の概要: MIBench: Evaluating LMMs on Multimodal Interaction
- arxiv url: http://arxiv.org/abs/2603.13427v1
- Date: Fri, 13 Mar 2026 03:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.193863
- Title: MIBench: Evaluating LMMs on Multimodal Interaction
- Title(参考訳): MIBench: マルチモーダルインタラクションにおけるLMMの評価
- Authors: Yu Miao, Zequn Yang, Yake Wei, Ziheng Chen, Haotian Ni, Haodong Duan, Kai Chen, Di Hu,
- Abstract要約: MIBenchは、LMM(Large Multimodal Models)のマルチモーダル相互作用能力を評価するために設計されたベンチマークである。
MIBenchは、32の異なるタスクにまたがる1万以上の視覚コンテキストコンテキストからなる。
- 参考スコア(独自算出の注目度): 44.761361565906924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In different multimodal scenarios, it needs to integrate and utilize information across modalities in a specific way based on the demands of the task. Different integration ways between modalities are referred to as "multimodal interaction". How well a model handles various multimodal interactions largely characterizes its multimodal ability. In this paper, we introduce MIBench, a comprehensive benchmark designed to evaluate the multimodal interaction capabilities of Large Multimodal Models (LMMs), which formulates each instance as a (con_v , con_t, task) triplet with contexts from vision and text, necessitating that LMMs employ correct forms of multimodal interaction to effectively complete the task. MIBench assesses models from three key aspects: the ability to source information from vision-centric or text-centric cues, and the ability to generate new information from their joint synergy. Each interaction capability is evaluated hierarchically across three cognitive levels: Recognition, Understanding, and Reasoning. MIBench comprises over 10,000 vision-text context pairs spanning 32 distinct tasks. Evaluation of state-of-the-art LMMs show that: (1) LMMs' ability on multimodal interaction remains constrained, despite the scaling of model parameters and training data; (2) they are easily distracted by textual modalities when processing vision information; (3) they mostly possess a basic capacity for multimodal synergy; and (4) natively trained multimodal models show noticeable deficits in fundamental interaction ability. We expect that these observations can serve as a reference for developing LMMs with more enhanced multimodal ability in the future.
- Abstract(参考訳): 異なるマルチモーダルシナリオでは、タスクの要求に基づいて特定の方法で、モーダルをまたいだ情報を統合し、活用する必要があります。
モジュラリティ間の異なる統合方法は「マルチモーダル相互作用」と呼ばれる。
モデルがどのように様々なマルチモーダル相互作用を処理するかは、そのマルチモーダル能力の特徴である。
本稿では,大規模マルチモーダルモデル(LMM)のマルチモーダルインタラクション機能を評価するために設計された総合ベンチマークMIBenchを紹介する。
MIBenchは、3つの重要な側面からモデルを評価する。ビジョン中心またはテキスト中心のキューから情報をソースする機能と、ジョイントシナジーから新しい情報を生成する機能だ。
各相互作用能力は3つの認知レベル(認識、理解、推論)で階層的に評価される。
MIBenchは、32の異なるタスクにまたがる1万以上の視覚コンテキストコンテキストからなる。
現状のLMMの評価では,(1)モデルパラメータとトレーニングデータのスケーリングにもかかわらず,LMMのマルチモーダル相互作用能力は制約され,(2)視覚情報処理時のテキストモダリティによって容易に阻害され,(3)主にマルチモーダル・シナジーの基本的な能力を有し,(4)ネイティブに訓練されたマルチモーダルモデルでは,基本的な相互作用能力に顕著な欠陥が示される。
今後, マルチモーダル能力の向上が期待できる LMM の開発基準として, これらの観測が期待できる。
関連論文リスト
- Baichuan-Omni Technical Report [28.306965534325904]
世界初のオープンソース 7B Multimodal Large Language Model (MLLM) であるBaichuan-omni を紹介する。
Baichuan-omniは画像、ビデオ、オーディオ、テキストのモダリティを同時に処理し分析する能力を持っている。
論文 参考訳(メタデータ) (2024-10-11T06:44:31Z) - What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。
我々の理論的分析は、情報の共有、相乗的、ユニークな用語がこの定式化から自然に現れることを示している。
後者では、CoMMは複雑なマルチモーダル相互作用を学び、7つのマルチモーダルベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-11T16:42:22Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - UNIMO-3: Multi-granularity Interaction for Vision-Language
Representation Learning [35.88753097105914]
マルチモーダルな層間相互作用と層間相互作用を同時に学習する能力を持つ UNIMO-3 モデルを提案する。
我々のモデルは,様々な下流タスクにおける最先端性能を実現し,効果的な層間学習がマルチモーダル表現の能力を向上することを証明することができる。
論文 参考訳(メタデータ) (2023-05-23T05:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。