論文の概要: Reason to Contrast: A Cascaded Multimodal Retrieval Framework
- arxiv url: http://arxiv.org/abs/2602.23369v1
- Date: Sun, 21 Dec 2025 04:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:07.92837
- Title: Reason to Contrast: A Cascaded Multimodal Retrieval Framework
- Title(参考訳): コントラストへの理由: カスケードされたマルチモーダル検索フレームワーク
- Authors: Xuanming Cui, Hong-You Chen, Hao Yu, Hao Yuan, Zihao Wang, Shlok Kumar Mishra, Hanchao Yu, Yonghuan Yang, Jun Xiao, Ser-Nam Lim, Jianpeng Cheng, Qi Guo, Xiangjun Fan,
- Abstract要約: ハイブリッドマルチモーダル検索フレームワークであるTTE-v2では、モデルや埋め込みサイズではなく、追加の入力トークン予算に基づく推論駆動のパフォーマンススケーリングが導入されている。
提案手法は,初期マルチモーダル検索をさらに強化し,テスト時により表現力の高いクエリ・候補間相互作用を可能にする。
MMEB-V2ベンチマークの実験では、TTE-v2-7Bは75.7%の新しい最先端の精度を実現し、TTE-v2-2Bは、かなり大きな外部データで訓練された7Bモデルと一致または上回った。
- 参考スコア(独自算出の注目度): 60.99421225506685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional multimodal retrieval systems rely primarily on bi-encoder architectures, where performance is closely tied to embedding dimensionality. Recent work, Think-Then-Embed (TTE), shows that incorporating multimodal reasoning to elicit additional informative tokens before embedding can further improve retrieval. In this paper, we extend this paradigm with TTE-v2, a hybrid multimodal retrieval framework that introduces reasoning-driven performance scaling based on additional input token budget rather than model or embedding size. Our approach augments the initial multimodal retrieval with additional reasoning steps for reranking, enabling more expressive query-candidate interactions at test time. The reranking stage further provides fine-grained supervision for hard negative mining and false negative filtering, creating a feedback loop that effectively strengthens the upstream retriever. This cascaded design delivers substantial test-time improvements based on intermediate reasoning token scaling. Experiments on the MMEB-V2 benchmark demonstrate that TTE-v2-7B achieves a new state-of-the-art accuracy of 75.7%, and that TTE-v2-2B matches or surpasses leading 7B models trained with significantly larger external data. Our results highlight the promise of token-wise scaling as an alternative scaling paradigm for multimodal retrieval.
- Abstract(参考訳): 従来のマルチモーダル検索システムは主にバイエンコーダアーキテクチャに依存しており、性能は埋め込み次元と密接に結びついている。
最近の研究であるThink-Then-Embed (TTE)は、埋め込み前に付加的な情報トークンを引き出すためにマルチモーダル推論を取り入れることで、検索をさらに改善できることを示している。
本稿では、モデルや埋め込みサイズではなく、追加の入力トークン予算に基づく推論駆動のパフォーマンススケーリングを導入するハイブリッドマルチモーダル検索フレームワークであるTTE-v2を用いて、このパラダイムを拡張した。
提案手法は,初期マルチモーダル検索をさらに強化し,テスト時により表現力の高いクエリ・候補間相互作用を可能にする。
さらに、リグレードステージは、厳しい負のマイニングと偽の負のフィルタリングのためのきめ細かい監督を提供し、上流レトリバーを効果的に強化するフィードバックループを生成する。
このケースドデザインは、中間推論トークンのスケーリングに基づいて、テスト時間を大幅に改善する。
MMEB-V2ベンチマークの実験では、TTE-v2-7Bは75.7%の新しい最先端の精度を実現し、TTE-v2-2Bは、かなり大きな外部データで訓練された7Bモデルと一致または上回った。
本結果は,マルチモーダル検索のための代替スケーリングパラダイムとしてトークンワイズスケーリングが期待できることを示す。
関連論文リスト
- UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering [8.21219588747224]
本稿では,視覚エンコーダとシーケンス・ツー・シーケンス言語モデルを統合する統一アーキテクチャであるVLMTについて述べる。
VLMTは直接トークンレベルの注入機構を使用して、共有埋め込み空間内で視覚的およびテキスト的入力を融合する。
2つのベンチマークデータセットに関する総合的な実験は、提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-11T05:51:44Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Efficient Multitask Dense Predictor via Binarization [19.5100813204537]
資源集約型マルチタスク密度予測器を圧縮するために,ネットワークバイナライゼーションを導入する。
両立マルチタスクDense Predictor, Bi-MTDP, およびいくつかの種類のBi-MTDPを提案する。
Bi-MTDPの1つの変種は、フル精度(FP)マルチタスク密度予測SoTA、ARTC(CNNベース)、InvPT(ViTベース)より優れている
論文 参考訳(メタデータ) (2024-05-23T03:19:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。