Fugu-MT 論文翻訳(概要): Indexing Multimodal Language Models for Large-scale Image Retrieval

論文の概要: Indexing Multimodal Language Models for Large-scale Image Retrieval

arxiv url: http://arxiv.org/abs/2604.13268v1
Date: Tue, 14 Apr 2026 19:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 20:38:32.279195
Title: Indexing Multimodal Language Models for Large-scale Image Retrieval
Title（参考訳）: 大規模画像検索のためのマルチモーダル言語モデルのインデクシング
Authors: Bahey Tharwat, Giorgos Kordopatis-Zilos, Pavel Suma, Ian Reid, Giorgos Tolias,
Abstract要約: MLLM(Multimodal Large Language Models)は、強力なクロスモーダル推論能力を示しているが、視覚のみのタスクの可能性はまだ未定である。本研究では,MLLMをインスタンスレベルの画像・画像検索のための訓練不要類似度推定器として検討する。提案手法は,画像のペア化を促進し,次点確率を類似度スコアに変換し,大規模検索パイプライン内でゼロショットの再ランク付けを可能にする。
参考スコア（独自算出の注目度）: 15.19064519873711
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have demonstrated strong cross-modal reasoning capabilities, yet their potential for vision-only tasks remains underexplored. We investigate MLLMs as training-free similarity estimators for instance-level image-to-image retrieval. Our approach prompts the model with paired images and converts next-token probabilities into similarity scores, enabling zero-shot re-ranking within large-scale retrieval pipelines. This design avoids specialized architectures and fine-tuning, leveraging the rich visual discrimination learned during multimodal pre-training. We address scalability by combining MLLMs with memory-efficient indexing and top-$k$ candidate re-ranking. Experiments across diverse benchmarks show that MLLMs outperform task-specific re-rankers outside their native domains and exhibit superior robustness to clutter, occlusion, and small objects. Despite strong results, we identify failure modes under severe appearance changes, highlighting opportunities for future research. Our findings position MLLMs as a promising alternative for open-world large-scale image retrieval.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、強力なクロスモーダル推論能力を示しているが、視覚のみのタスクの可能性はまだ未定である。本研究では,MLLMをインスタンスレベルの画像・画像検索のための訓練不要類似度推定器として検討する。提案手法は,画像のペア化を促進し,次点確率を類似度スコアに変換し,大規模検索パイプライン内でゼロショットの再ランク付けを可能にする。この設計は、特殊アーキテクチャや微調整を回避し、マルチモーダル事前学習で学んだリッチな視覚的識別を活用する。 MLLMとメモリ効率の指標とトップ$kの候補を再ランク付けすることでスケーラビリティに対処する。さまざまなベンチマークによる実験の結果、MLLMはタスク固有のリランカをネイティブドメインの外で上回り、乱雑、隠蔽、小さなオブジェクトに対して優れた堅牢性を示すことが示された。結果が強いにもかかわらず、厳しい外見の変化の下での障害モードを特定し、将来の研究の機会を浮き彫りにする。本研究は,MLLMを大規模画像検索の有望な代替手段として位置づけた。

関連論文リスト

FewMMBench: A Benchmark for Multimodal Few-Shot Learning [17.747746608503114]
FewMMBenchは、MLLM(Multimodal large language model)を評価するために設計された包括的なベンチマークである。ゼロショット,少数ショット,CoT増設数ショット設定で6種類のモデルファミリーから26個のオープンウェイトMLLMを評価した。以上の結果から,命令調整モデルではゼロショット性能は高いが,デモやCoT推論を付加することで,最小限あるいは最小限の利益を得ることができた。
論文参考訳（メタデータ） (2026-02-25T12:30:18Z)
More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。 LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文参考訳（メタデータ） (2026-01-12T18:45:13Z)
Generative Giants, Retrieval Weaklings: Why do Multimodal Large Language Models Fail at Multimodal Retrieval? [8.45007357012084]
MLLMが有効なレトリバーとして機能することを妨げるメカニズムについて検討する。解析の結果,MLLMの表現空間はテキストセマンティクスによって圧倒的に支配されていることが明らかとなった。 MLLMの類似性計算に最も寄与する特定の特徴成分は、実際に、検索性能を積極的に劣化させるトラクタであることがわかった。
論文参考訳（メタデータ） (2025-12-22T07:36:20Z)
A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文参考訳（メタデータ） (2025-11-19T04:13:36Z)
From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning [27.117102717184597]
Multi-image Interleaved Reasoningは、複数の画像とその関連するテキストコンテキストを共同で理解し、推論するマルチモーダル大言語モデル(MLLM)の能力を改善することを目的としている。 MIRは、画像領域と対応するテキストを正確に関連付けるために、インターリーブされたテキストコンテキストを伴う複数の画像に対する共同推論を必要とする。提案手法は, MIRベンチマークおよび他の確立されたベンチマークにおいて, モデル推論性能を著しく向上させる。
論文参考訳（メタデータ） (2025-09-21T11:19:02Z)
Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration [39.2654025469784]
我々は,視覚レベルの推論に適した訓練不要でモデルに依存しない木探索アルゴリズムZoom Eyeを提案する。このアルゴリズムにより、MLLMは、タスク関連視覚的エビデンスを探索するために、ルートから葉ノードへナビゲートすることで、人間の様のズーム動作をシミュレートすることができる。
論文参考訳（メタデータ） (2024-11-25T02:15:30Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。