論文の概要: Reasoning-Augmented Representations for Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2602.07125v1
- Date: Fri, 06 Feb 2026 19:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.460257
- Title: Reasoning-Augmented Representations for Multimodal Retrieval
- Title(参考訳): マルチモーダル検索のための推論強化表現
- Authors: Jianrui Zhang, Anirudh Sundara Rajan, Brandon Han, Soochahn Lee, Sukanta Ganguly, Yong Jae Lee,
- Abstract要約: Universal Multimodal Retrieval (UMR) は、テキストと視覚を横断する任意の検索を求める。
画像が“サイレント”なエビデンスを持ち、クエリがキーセマンティクスを暗黙的に残す場合、単一の埋め込みパスは理由と圧縮の両方でなければならない。
本稿では、検索前の推論を外部化することで、これらの役割を分離するデータ中心のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.4146940988752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal Multimodal Retrieval (UMR) seeks any-to-any search across text and vision, yet modern embedding models remain brittle when queries require latent reasoning (e.g., resolving underspecified references or matching compositional constraints). We argue this brittleness is often data-induced: when images carry "silent" evidence and queries leave key semantics implicit, a single embedding pass must both reason and compress, encouraging spurious feature matching. We propose a data-centric framework that decouples these roles by externalizing reasoning before retrieval. Using a strong Vision--Language Model, we make implicit semantics explicit by densely captioning visual evidence in corpus entries, resolving ambiguous multimodal references in queries, and rewriting verbose instructions into concise retrieval constraints. Inference-time enhancement alone is insufficient; the retriever must be trained on these semantically dense representations to avoid distribution shift and fully exploit the added signal. Across M-BEIR, our reasoning-augmented training method yields consistent gains over strong baselines, with ablations showing that corpus enhancement chiefly benefits knowledge-intensive queries while query enhancement is critical for compositional modification requests. We publicly release our code at https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
- Abstract(参考訳): Universal Multimodal Retrieval (UMR) はテキストと視覚をまたいだ任意の検索を求めるが、クエリが遅延推論を必要とする場合(例えば、未特定参照の解決や構成制約のマッチングなど)、最新の埋め込みモデルは不安定である。
イメージが“サイレント”なエビデンスを持ち、クエリがキーセマンティクスを暗黙にしておくと、単一の埋め込みパスは理性と圧縮の両方に必要であり、刺激的な特徴マッチングを促進する。
本稿では、検索前の推論を外部化することで、これらの役割を分離するデータ中心のフレームワークを提案する。
強い視覚-言語モデルを用いて、コーパスエントリに視覚的エビデンスを密にキャプションし、クエリであいまいなマルチモーダル参照を解決し、冗長な命令を簡潔な制約に書き換えることで、暗黙のセマンティクスを明示する。
推論時間の延長だけでは不十分であり、レトリバーは、分布シフトを回避し、追加の信号を完全に活用するために、これらの意味的に密度の高い表現で訓練されなければならない。
M-BEIR全体では, コーパスの強化は知識集約的なクエリに大きく寄与する一方で, クエリの強化は構成的変更要求に不可欠であることを示す。
コードをhttps://github.com/AugmentedRetrieval/ReasoningAugmentedRetrievalで公開しています。
関連論文リスト
- ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Resource-Friendly Dynamic Enhancement Chain for Multi-Hop Question Answering [21.077964610022313]
この研究はDEC(Dynamic Enhancement Chain)と呼ばれる新しいフレームワークを提案する。
DECはまず複雑な質問を論理的に一貫性のあるサブクエストに分解し、幻覚のない推論連鎖を形成する。
その後、コンテキスト対応の書き換えによってこれらのサブクエストを反復的に洗練し、効率的なクエリの定式化を生成する。
論文 参考訳(メタデータ) (2025-06-21T11:55:27Z) - ClueAnchor: Clue-Anchored Knowledge Reasoning Exploration and Optimization for Retrieval-Augmented Generation [82.54090885503287]
Retrieval-Augmented Generationは、外部知識を持つ大規模言語モデルを拡張して、事実性を改善する。
既存のRAGシステムは、忠実で解釈可能な推論をサポートするために必要な重要な手がかりを抽出して統合することができない。
本稿では,手掛かり付き推論探索と最適化によるRAG向上のための新しいフレームワークであるClueAnchorを提案する。
論文 参考訳(メタデータ) (2025-05-30T09:18:08Z) - UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Improving Retrieval in Sponsored Search by Leveraging Query Context Signals [6.152499434499752]
本稿では,クエリをリッチなコンテキスト信号で拡張することで,クエリ理解を強化する手法を提案する。
我々は、Web検索のタイトルとスニペットを使って、現実世界の情報にクエリを接地し、GPT-4を使ってクエリの書き直しと説明を生成する。
我々の文脈認識アプローチは文脈自由モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2024-07-19T14:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。