論文の概要: MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2506.17046v1
- Date: Fri, 20 Jun 2025 14:57:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.493976
- Title: MUCAR: Benchmarking Multilingual Cross-Modal Ambiguity Resolution for Multimodal Large Language Models
- Title(参考訳): MUCAR:マルチモーダル大言語モデルのための多言語多言語多言語間のあいまいさ解決のベンチマーク
- Authors: Xiaolong Wang, Zhaolu Kang, Wangyuxuan Zhai, Xinyue Lou, Yunghwei Lai, Ziyue Wang, Yawen Wang, Kaiyu Huang, Yile Wang, Peng Li, Yang Liu,
- Abstract要約: MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。
マルチランガルおよびクロスモーダルシナリオ間のマルチモーダル曖昧性解決を明示的に評価するために設計された新しいベンチマークであるMUCARを紹介する。
- 参考スコア(独自算出の注目度): 18.73221445082855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated significant advances across numerous vision-language tasks. Due to their strong image-text alignment capability, MLLMs can effectively understand image-text pairs with clear meanings. However, effectively resolving the inherent ambiguities in natural language and visual contexts remains challenging. Existing multimodal benchmarks typically overlook linguistic and visual ambiguities, relying mainly on unimodal context for disambiguation and thus failing to exploit the mutual clarification potential between modalities. To bridge this gap, we introduce MUCAR, a novel and challenging benchmark designed explicitly for evaluating multimodal ambiguity resolution across multilingual and cross-modal scenarios. MUCAR includes: (1) a multilingual dataset where ambiguous textual expressions are uniquely resolved by corresponding visual contexts, and (2) a dual-ambiguity dataset that systematically pairs ambiguous images with ambiguous textual contexts, with each combination carefully constructed to yield a single, clear interpretation through mutual disambiguation. Extensive evaluations involving 19 state-of-the-art multimodal models--encompassing both open-source and proprietary architectures--reveal substantial gaps compared to human-level performance, highlighting the need for future research into more sophisticated cross-modal ambiguity comprehension methods, further pushing the boundaries of multimodal reasoning.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は多くの視覚言語タスクにおいて大きな進歩を見せている。
強力な画像テキストアライメント能力のため、MLLMは明確な意味を持つ画像テキストペアを効果的に理解することができる。
しかし、自然言語や視覚的文脈における本来の曖昧さを効果的に解決することは、依然として困難である。
既存のマルチモーダルベンチマークは、言語的および視覚的曖昧さを概ね見落としており、主に曖昧さに対するアンモダル文脈に依存しており、それゆえ、モダリティ間の相互明確化の可能性を利用できない。
このギャップを埋めるために、マルチランガルシナリオとクロスモーダルシナリオをまたいだマルチモーダル曖昧性解決を明示的に評価するために設計された、斬新で挑戦的なベンチマークであるMUCARを導入する。
MUCAR は,(1) あいまいなテキスト表現が対応する視覚的コンテキストによって一意に解決される多言語データセット,(2) あいまいな画像とあいまいなテキストのコンテキストを体系的にペアリングする二重曖昧性データセットと,それぞれの組み合わせを慎重に構成し,相互のあいまいさを通じて1つの明瞭な解釈を生成する。
19の最先端のマルチモーダルモデルを含む広範囲な評価 – オープンソースとプロプライエタリなアーキテクチャの両方を包含する – は、人間レベルのパフォーマンスと比較して大きなギャップを生じさせ、より洗練されたクロスモーダルなあいまいさの理解方法の研究の必要性を強調し、さらにマルチモーダルな推論の境界を推し進めている。
関連論文リスト
- SemEval-2025 Task 1: AdMIRe -- Advancing Multimodal Idiomaticity Representation [4.9231093174636404]
本稿では,SemEval-2025 Task 1: AdReMiancing Multimodality Representationのデータセットとタスクについて述べる。
この課題は、マルチモーダルな文脈や複数の言語で慣用的な表現を解釈するモデルの能力を評価し改善することである。
参加者は2つのサブタスクに出場した: 画像が慣用的またはリテラル的な意味と整合性に基づいてランク付けされ、シーケンス内の次のイメージを意味付け、予測する。
論文 参考訳(メタデータ) (2025-03-19T15:58:46Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual
Knowledge Transfer [23.58317401302547]
本稿では,言語間移動を用いた視覚と対象言語間のアライメントを改善する汎用フレームワークCL2CMを提案する。
提案手法は,Multi30KとMSCOCOの2つの多言語画像テキストデータセットと,ビデオテキストデータセットVATEXである。
論文 参考訳(メタデータ) (2023-12-14T14:29:53Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。