論文の概要: Think When Needed: Adaptive Reasoning-Driven Multimodal Embeddings with a Dual-LoRA Architecture
- arxiv url: http://arxiv.org/abs/2605.14448v1
- Date: Thu, 14 May 2026 06:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.667996
- Title: Think When Needed: Adaptive Reasoning-Driven Multimodal Embeddings with a Dual-LoRA Architecture
- Title(参考訳): 必要ならば考える - デュアルLoRAアーキテクチャによるアダプティブ推論駆動型マルチモーダル埋め込み
- Authors: Longxiang Zhang, Weilong Dai, Guanghao Zhang, Hao Jiang, Pipei Huang,
- Abstract要約: Think When Needed (TWN) は適応的推論を備えた統合マルチモーダル埋め込みフレームワークである。
これに基づいてアダプティブシンク機構は、自己教師付きルーティングゲートを使用して、入力毎にチェーン・オブ・シークレット(CoT)を生成するかどうかを決定する。
MMEB-V2の78タスクでは、TWNは最先端の埋め込み品質を達成し、既存の生成方法よりもはるかに効率的である。
- 参考スコア(独自算出の注目度): 5.59567612070537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have emerged as a powerful backbone for multimodal embeddings. Recent methods introduce chain-of-thought (CoT) reasoning into the embedding pipeline to improve retrieval quality, but remain costly in both model size and inference cost. They typically employ separate reasoner and embedder with substantial parameter overhead, and generate CoT indiscriminately for every input. However, we observe that for simple inputs, discriminative embeddings already perform well, and redundant reasoning can even mislead the model, degrading performance. To address these limitations, we propose Think When Needed (TWN), a unified multimodal embedding framework with adaptive reasoning. TWN introduces a dual-LoRA architecture that attaches reasoning and embedding adapters to a shared frozen backbone, detaching gradients at their interface to mitigate gradient conflicts introduced by joint optimization while keeping parameters close to a single model. Building on this, an adaptive think mechanism uses a self-supervised routing gate to decide per input whether to generate CoT, skipping unnecessary reasoning to reduce inference overhead and even improve retrieval quality. We further explore embedding-guided RL to optimize CoT quality beyond supervised training. On the 78 tasks of MMEB-V2, TWN achieves state-of-the-art embedding quality while being substantially more efficient than existing generative methods, requiring only 3-5% additional parameters relative to the backbone and up to 50% fewer reasoning tokens compared to the full generative mode.
- Abstract(参考訳): マルチモーダルな言語モデル(MLLM)は、マルチモーダルな埋め込みのための強力なバックボーンとして登場した。
近年の手法では,組込みパイプラインにチェーン・オブ・シント(CoT)推論を導入し,検索品質を向上するが,モデルサイズと推論コストの両面でコストがかかる。
彼らは通常、かなりのパラメータのオーバーヘッドを持つ別々の推論器と埋め込み器を使用し、入力毎にCoTを無差別に生成する。
しかし、単純な入力の場合、識別的埋め込みはすでにうまく機能しており、冗長な推論はモデルを誤解させ、性能を劣化させる可能性がある。
これらの制約に対処するため、適応的推論を備えた統合マルチモーダル埋め込みフレームワークThink When Needed (TWN)を提案する。
TWNはデュアルLoRAアーキテクチャを導入し、推論および埋め込みアダプタを共有冷凍バックボーンにアタッチし、インターフェースの勾配を除去し、単一のモデルに近いパラメータを維持しながら、共同最適化によって導入された勾配競合を軽減する。
これに基づいてアダプティブシンク機構は、自己教師付きルーティングゲートを使用して、CoTを生成するかどうかを入力毎に決定し、不要な推論をスキップして推論オーバーヘッドを低減し、さらには検索品質を向上させる。
さらに,CoT品質を教師付きトレーニングを超えて最適化するための埋め込み誘導RLについても検討する。
MMEB-V2の78のタスクでは、TWNは最先端の埋め込み品質を達成しつつ、既存のジェネレーティブメソッドよりもはるかに効率的であり、バックボーンに対するパラメータを3~5%追加するだけで、完全なジェネレーティブモードに比べて最大50%少ない推論トークンを必要とする。
関連論文リスト
- MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control [36.06412693943508]
適応型推論に基づくマルチモーダル埋め込みフレームワークであるMMEmb-R1を提案する。
我々は、潜在変数としての推論を定式化し、クエリターゲットアライメントに有用な推論経路を特定するためにペア認識推論選択を導入する。
MMEB-V2ベンチマーク実験により,本モデルでは4Bパラメータのみを用いて71.2のスコアを達成し,推論のオーバーヘッドと推論遅延を大幅に低減し,新たな最先端技術を確立した。
論文 参考訳(メタデータ) (2026-04-07T17:55:17Z) - PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - Reasoning Pattern Alignment Merging for Adaptive Reasoning [48.347817456299104]
Reasoning Pattern Alignment Merging (RPAM)
RPAMは、クエリ適応推論を容易にする機能アライメントに基づく階層的なモデルマージフレームワークである。
広く使用されている7つの推論ベンチマークの実験により、RPAMは強い性能を維持しながら推論コストを大幅に削減することが示された。
論文 参考訳(メタデータ) (2026-01-07T01:36:39Z) - SCoTER: Structured Chain-of-Thought Transfer for Enhanced Recommendation [24.019381388104236]
本稿では,パターン発見と構造認識伝達を協調最適化問題として扱う統合フレームワークであるSCoTERを提案する。
具体的には、SCoTERは、自動パターン検出のためのGVMパイプラインと、ステップワイズロジックを効率的なモデルに転送する構造保存統合アーキテクチャという、2つの相乗的コンポーネントを通じてこれを運用する。
論文 参考訳(メタデータ) (2025-11-24T03:00:04Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。