論文の概要: Generative Giants, Retrieval Weaklings: Why do Multimodal Large Language Models Fail at Multimodal Retrieval?
- arxiv url: http://arxiv.org/abs/2512.19115v1
- Date: Mon, 22 Dec 2025 07:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.659515
- Title: Generative Giants, Retrieval Weaklings: Why do Multimodal Large Language Models Fail at Multimodal Retrieval?
- Title(参考訳): 生成ジャイアンツ、検索弱体:なぜマルチモーダル大言語モデルはマルチモーダル検索で失敗するのか?
- Authors: Hengyi Feng, Zeang Sheng, Meiyi Qiang, Wentao Zhang,
- Abstract要約: MLLMが有効なレトリバーとして機能することを妨げるメカニズムについて検討する。
解析の結果,MLLMの表現空間はテキストセマンティクスによって圧倒的に支配されていることが明らかとなった。
MLLMの類似性計算に最も寄与する特定の特徴成分は、実際に、検索性能を積極的に劣化させるトラクタであることがわかった。
- 参考スコア(独自算出の注目度): 8.45007357012084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable success of multimodal large language models (MLLMs) in generative tasks, we observe that they exhibit a counterintuitive deficiency in the zero-shot multimodal retrieval task. In this work, we investigate the underlying mechanisms that hinder MLLMs from serving as effective retrievers. With the help of sparse autoencoders (SAEs), we decompose MLLM output representations into interpretable semantic concepts to probe their intrinsic behavior. Our analysis reveals that the representation space of MLLMs is overwhelmingly dominated by textual semantics; the visual information essential for multimodal retrieval only constitutes a small portion. This imbalance is compounded by the heavy focus of MLLMs on bridging image-text modalities, which facilitates generation but homogenizes embeddings and finally diminishes the discriminative power required for multimodal retrieval. We further discover that the specific feature components that contribute most to the similarity computations for MLLMs are in fact distractors that actively degrade retrieval performance. Overall, our work provides the first in-depth interpretability analysis of MLLM representations in the context of multimodal retrieval and offers possible directions for enhancing the multimodal retrieval capabilities of MLLMs.
- Abstract(参考訳): 生成タスクにおける多モーダル大言語モデル(MLLM)の顕著な成功にもかかわらず、ゼロショット多モーダル検索タスクでは直感的でないことが観察された。
本研究では,MLLMが有効なレトリバーとして機能することを妨げるメカニズムについて検討する。
スパースオートエンコーダ(SAE)の助けを借りて、MLLM出力表現を解釈可能な意味概念に分解し、本質的な振る舞いを探索する。
解析の結果,MLLMの表現空間はテキストのセマンティクスによって圧倒的に支配されていることが明らかとなった。
この不均衡は、画像テキストモダリティのブリッジ化にMLLMが重く焦点を合わせ、埋め込みを均質化するが、最終的にはマルチモーダル検索に必要な識別力を低下させる。
さらに,MLLMの類似性計算に最も寄与する特徴成分は,実際に検索性能を劣化させる要因であることがわかった。
本研究は,マルチモーダル検索の文脈におけるMLLM表現の深い解釈可能性解析を行い,MLLMのマルチモーダル検索能力を高めるための可能な方向を提供する。
関連論文リスト
- Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs [5.380090638488105]
MMA-Benchは、特定のモダリティへの依存を調査するビデオとタスクで構成されている。
現在のMLLMは、音声と視覚のペアと単純な誤解を招くテキストが混在している。
本稿では,特定のモダリティ手法を優先し,活用するか,無視するかをモデルに教えるためのモダリティアライメントチューニング戦略を提案する。
論文 参考訳(メタデータ) (2025-11-28T01:21:29Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Think Then Embed: Generative Context Improves Multimodal Embedding [51.76690812535934]
本稿では,ユニバーサル・マルチモーダル・エンベディング (UME) のためのThink-Then-Embed (TTE) フレームワークを提案する。
強力なMLLM推論器を利用することで、MMEB-V2ベンチマークで最先端のパフォーマンスを達成し、大規模な社内データセットでトレーニングされたプロプライエタリモデルを上回った。
論文 参考訳(メタデータ) (2025-10-06T16:53:56Z) - Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - AgentPS: Agentic Process Supervision for Content Moderation with Multimodal LLMs [9.35901507816989]
本稿では,Agentic Process Supervisionを大規模言語モデルに統合するフレームワークであるAgentPSを紹介する。
我々は、AgentPSが、公開ベンチマークとプロプライエタリデータセットのベースラインMLLMよりも大幅に改善されていることを示す。
これらの結果は、大規模産業アプリケーションにおける複雑なマルチモーダル分類のためのスケーラブルで効果的なソリューションとして、AgentPSを確立している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。