論文の概要: TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2603.02929v2
- Date: Wed, 04 Mar 2026 02:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 14:47:28.982458
- Title: TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval
- Title(参考訳): TRACE:Universal Multimodal Retrievalのためのタスク適応型推論と表現学習
- Authors: Xiangzhao Hao, Shijie Wang, Tianyu Yang, Tianyue Wang, Haiyun Guo, Jinqiao Wang,
- Abstract要約: Universal Multimodal Retrievalは、多様なユーザ意図を解釈できる統合埋め込みモデルを必要とする。
TRACE(Task-adaptive Reasoning and Embeddings)を紹介する。
TRACEは、生成的推論を識別的表現学習と統合する。
- 参考スコア(独自算出の注目度): 35.86480813138274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal Multimodal Retrieval requires unified embedding models capable of interpreting diverse user intents, ranging from simple keywords to complex compositional instructions. While Multimodal Large Language Models (MLLMs) possess strong reasoning capabilities, prevailing adaptations confine them to static encoders, underutilizing their generative potential. This encoder-only paradigm struggles with complex intents that demand logical deduction rather than superficial pattern matching. To address this, we introduce TRACE (Task-adaptive Reasoning And Compressing Embeddings). TRACE unifies generative reasoning with discriminative representation learning. It first generates a structured Chain-of-Thought (CoT) to explicitly reason about the query, and subsequently compresses this reasoning trace into a compact embedding via a dedicated token. To train this framework, we construct M-BEIR-CoT, a large-scale dataset featuring a difficulty-aware routing strategy. Experiments on the M-BEIR benchmark establish TRACE as the new state-of-the-art. Crucially, TRACE demonstrates a learned implicit routing behavior. It autonomously activates reasoning for complex queries while bypassing it for simpler ones, achieving an optimal balance between retrieval accuracy and inference throughput. Furthermore, by internalizing the deductive process, TRACE exhibits remarkable zero-shot transferability to unseen domains and novel constraints.
- Abstract(参考訳): Universal Multimodal Retrievalは、単純なキーワードから複雑な構成命令まで、多様なユーザ意図を解釈できる統一的な埋め込みモデルを必要とする。
MLLM (Multimodal Large Language Models) には強力な推論能力があるが、一般的な適応法では静的エンコーダに制限され、それらの生成能力を弱めている。
このエンコーダのみのパラダイムは、表面的なパターンマッチングよりも論理的推論を必要とする複雑な意図に苦しむ。
これを解決するために、TRACE(Task-adaptive Reasoning And Compressing Embeddings)を紹介します。
TRACEは、生成的推論を識別的表現学習と統合する。
まず、クエリを明示的に推論するために構造化されたChain-of-Thought(CoT)を生成し、その後、この推論トレースを専用のトークンを通じてコンパクトな埋め込みに圧縮する。
このフレームワークをトレーニングするために、我々は、困難を意識したルーティング戦略を備えた大規模データセットであるM-BEIR-CoTを構築した。
M-BEIRベンチマークの実験はTRACEを新しい最先端技術として確立した。
TRACEは学習した暗黙のルーティング動作を示す。
より単純なクエリをバイパスしながら、複雑なクエリの推論を自律的に起動し、検索精度と推論スループットの最適なバランスを達成する。
さらに、還元過程を内部化することにより、TRACEは目に見えない領域や新しい制約に対する顕著なゼロショット転送性を示す。
関連論文リスト
- Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction [50.67483317563736]
本稿では,段階的に考察し,必要な情報を検索し,結果を生成し,自己評価を行い,結果を洗練するシステムを提案する。
CoT-Segは、思考の連鎖推論と自己補正を組み合わせることで、推論セグメンテーションを再考する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-01-24T11:41:54Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow [19.502882116487005]
リモートセンシング画像は、大きく、本質的に非構造的な空間データを提示する。
地理空間推論のための統合ワークフローであるRemoteReasonerを提案する。
RemoteReasonerは、複数の粒度推論タスクにわたる最先端(SOTA)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-25T13:58:11Z) - In-Context Occam's Razor: How Transformers Prefer Simpler Hypotheses on the Fly [25.47694115798524]
In-context Learning (ICL) は、トランスフォーマーがパラメータを更新せずにコンテキストの例を通して新しいタスクに適応できるようにする。
本稿では,より単純な処理によって生成される任意のパターンを,より複雑度の高いカテゴリで表現できる階層的タスク構造をトランスフォーマーがいかにナビゲートするかについて検討する。
論文 参考訳(メタデータ) (2025-06-24T06:33:00Z) - Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文 参考訳(メタデータ) (2025-06-06T09:18:56Z) - A Theoretical Framework for Prompt Engineering: Approximating Smooth Functions with Transformer Prompts [33.284445296875916]
本稿では, トランスフォーマーモデルに, 慎重に設計したプロンプトを付与することで, 計算システムとして機能できることを実証する公式なフレームワークを提案する。
我々は、$beta$-timesの微分可能関数に対する近似理論を確立し、適切に構造化されたプロンプトで導かれるとき、変換器が任意の精度でそのような関数を近似できることを証明した。
我々の発見は、自律的な推論と問題解決の可能性を強調し、エンジニアリングとAIエージェント設計のより堅牢で理論的に根ざした進歩の道を開いた。
論文 参考訳(メタデータ) (2025-03-26T13:58:02Z) - On the Diagram of Thought [20.805936414171892]
大規模言語モデル(LLM)は多くのタスクで優れているが、構造化された多段階の推論を必要とする複雑な問題に悩まされることが多い。
思考のダイアグラム(Diagram of Thought, DoT)は、1つのLCMがその推論のメンタルマップを構築し、ナビゲートすることを可能にする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。