Fugu-MT 論文翻訳(概要): RETLLM: Training and Data-Free MLLMs for Multimodal Information Retrieval

論文の概要: RETLLM: Training and Data-Free MLLMs for Multimodal Information Retrieval

arxiv url: http://arxiv.org/abs/2602.22278v1
Date: Wed, 25 Feb 2026 10:31:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.348689
Title: RETLLM: Training and Data-Free MLLMs for Multimodal Information Retrieval
Title（参考訳）: RETLLM:マルチモーダル情報検索のためのトレーニングとデータフリーMLLM
Authors: Dawei Su, Dongsheng Wang,
Abstract要約: マルチモーダル情報検索(MMIR)は、テキストや画像、あるいは混合クエリや候補を扱う際の柔軟性に注目されている。近年のマルチモーダル大言語モデル(MLLM)のブレークスルーにより,MLLMの知識を対照的な微調整フレームワークに組み込むことで,MMIR性能が向上している。本稿では,MMIRのためのMLLMをトレーニングおよびデータフリーでクエリする新しいフレームワークであるRetLLMを紹介する。
参考スコア（独自算出の注目度）: 2.2125276321198677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal information retrieval (MMIR) has gained attention for its flexibility in handling text, images, or mixed queries and candidates. Recent breakthroughs in multimodal large language models (MLLMs) boost MMIR performance by incorporating MLLM knowledge under the contrastive finetuning framework. However, they suffer from pre-training inconsistency and require large datasets. In this work, we introduce a novel framework, RetLLM, designed to query MLLMs for MMIR in a training- and data-free manner. Specifically, we formulate MMIR as a similarity score generation task and prompt MLLMs to directly predict retrieval scores in a coarse-then-fine pipeline. At the coarse stage, a top-k filtering strategy builds a small yet high-quality candidate pool for each query, enabling MLLMs to focus on semantically relevant candidates. Subsequently, the retrieval score is predicted by feeding both the query and candidate into MLLMs at the fine stage. Importantly, we propose a visual enhancement module during reasoning to help MLLMs re-pick forgotten visuals, improving retrieval. Extensive experiments on MMIR benchmarks show that RetLLM outperforms fine-tuned models. Ablation studies further verify each component. Our work demonstrates that MLLMs can achieve strong MMIR performance without any training, highlighting their inherent multimodal reasoning ability in a simple, scalable framework. We release our code at: https://github.com/alivecat05/RETLLM
Abstract（参考訳）: マルチモーダル情報検索(MMIR)は、テキストや画像、あるいは混合クエリや候補を扱う際の柔軟性に注目されている。近年のマルチモーダル大言語モデル(MLLM)のブレークスルーにより,MLLMの知識を対照的な微調整フレームワークに組み込むことで,MMIR性能が向上している。しかし、トレーニング前の不整合に悩まされ、大規模なデータセットが必要になる。本研究では,MMIRのためのMLLMをトレーニングおよびデータフリーでクエリする新しいフレームワークであるRetLLMを紹介する。具体的には、MMIRを類似度スコア生成タスクとして定式化し、MLLMに粗大なパイプラインにおける検索スコアを直接予測するように促す。粗い段階では、トップkフィルタリング戦略がクエリ毎に小さなが高品質な候補プールを構築し、MLLMが意味論的に関連する候補に集中できるようにする。その後、クエリと候補の両方をMLLMに微細な段階で供給することにより、検索スコアを予測する。重要なこととして、MLLMが忘れられた視覚を再現し、検索を改善するために、推論中の視覚強調モジュールを提案する。 MMIRベンチマークの大規模な実験により、RetLLMは微調整されたモデルよりも優れていることが示された。アブレーション研究は各成分を更に検証する。我々の研究は、MLLMがトレーニングなしで強力なMMIR性能を達成できることを示し、単純でスケーラブルなフレームワークで、その固有のマルチモーダル推論能力を強調した。 https://github.com/alivecat05/RETLLM

関連論文リスト

FewMMBench: A Benchmark for Multimodal Few-Shot Learning [17.747746608503114]
FewMMBenchは、MLLM(Multimodal large language model)を評価するために設計された包括的なベンチマークである。ゼロショット,少数ショット,CoT増設数ショット設定で6種類のモデルファミリーから26個のオープンウェイトMLLMを評価した。以上の結果から,命令調整モデルではゼロショット性能は高いが,デモやCoT推論を付加することで,最小限あるいは最小限の利益を得ることができた。
論文参考訳（メタデータ） (2026-02-25T12:30:18Z)
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。 14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文参考訳（メタデータ） (2025-10-09T17:59:37Z)
Improve MLLM Benchmark Efficiency through Interview [41.51050382338298]
大規模データに対する完全なカバレッジのQ&Aテストは、リソース集約的で時間を要する。より少ない質問を解き放つことで,MLLMのパフォーマンス指標を迅速に取得することを目的としたMLLMインタビュー戦略を提案する。
論文参考訳（メタデータ） (2025-06-01T07:51:15Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-11-04T20:06:34Z)
MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents [28.419007116364668]
MLLMエージェントは、マルチモーダルなタスク関連軌道データを取得することで、複雑なエンボディされたタスクの可能性を実証する。現在の検索手法は、主に軌跡におけるテキストや視覚的手がかりの表面レベルでの類似性に注目し、その特定のタスクに対する有効性を無視している。本稿では,MART(MLLM As ReTriever)という新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-04T14:10:39Z)
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。 MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文参考訳（メタデータ） (2024-07-11T15:08:11Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [111.51612340032052]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。