論文の概要: Do Reasoning Models Enhance Embedding Models?
- arxiv url: http://arxiv.org/abs/2601.21192v1
- Date: Thu, 29 Jan 2026 02:48:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.528181
- Title: Do Reasoning Models Enhance Embedding Models?
- Title(参考訳): 推論モデルは埋め込みモデルを促進するか?
- Authors: Wun Yu Chan, Shaojin Chen, Huihao Jing, Kwun Hang Lau, Elton Chun-Chai Li, Zihao Wang, Haoran Li, Yangqiu Song,
- Abstract要約: 最先端の埋め込みモデルは、対照的な学習によって適応されたデコーダのみの大規模言語モデルバックボーンから、ますます派生している。
RLVRで調整したバックボーンの埋め込みモデルでは,同一のトレーニングレシピを適用した場合,ベースボーンに対して一貫した性能上の優位性は得られなかった。
- 参考スコア(独自算出の注目度): 48.43242995118735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.
- Abstract(参考訳): 最先端の埋め込みモデルは、コントラスト学習によって適応されたデコーダのみの大規模言語モデル(LLM)のバックボーンから、ますます派生している。
RLVR(Reinforcement Learning with Verifiable Rewards)を通じてトレーニングされた推論モデルの出現を考えると、自然な疑問が生じる。
MTEB と BRIGHT の評価では, MTEB と BRIGHT では**null 効果が明らかにされている。
このパラドックスを解くために、**H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA)を導入します。
HRSAは、RLVRが非可逆潜在多様体の局所幾何学的再構成と可逆座標基底ドリフトを誘導する一方で、大域多様体幾何学と線形可読性を保存することを明らかにしている。
その結果、後続のコントラスト学習は、ベースモデルと推論初期化モデルの間に強い整合性をもたらす。
実証的な結果から、スーパービジョンファインチューニング(SFT)とは異なり、RLVRはランドスケープ自体を根本的に再構築するのではなく、既存のセマンティックランドスケープ内の軌跡を最適化していることが示唆された。
関連論文リスト
- Round-trip Reinforcement Learning: Self-Consistent Training for Better Chemical LLMs [51.29260537017623]
大規模言語モデル (LLM) は計算化学の汎用基盤モデルとして登場しつつある。
これらのモデルは、しばしば往復一貫性を欠いている。
本稿では,その一貫性を向上させるためにモデルをトレーニングする新しいフレームワークであるRound-Trip Reinforcement Learning(RTRL)を紹介する。
論文 参考訳(メタデータ) (2025-10-01T23:58:58Z) - How LLMs Learn to Reason: A Complex Network Perspective [14.638878448692493]
Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
論文 参考訳(メタデータ) (2025-09-28T04:10:37Z) - Recurrent Expansion: A Pathway Toward the Next Generation of Deep Learning [0.26107298043931204]
Recurrent Expansion (RE)は、従来の機械学習(ML)とディープラーニング(DL)を超えて進化する新しい学習パラダイムである。
REは、同一のディープアーキテクチャによるデータの複数のマッピングを強調し、内部表現(フィーチャーマップ)を損失などの観測されたパフォーマンス信号とともに分析する。
スケーラブルで適応的な変種であるSc-HMVREは、現実世界のデプロイメントに選択的なメカニズムとスケールの多様性を導入している。
論文 参考訳(メタデータ) (2025-07-04T19:26:48Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - State-space models can learn in-context by gradient descent [1.3087858009942543]
状態空間モデルは、勾配に基づく学習を実行し、変換器と全く同じ方法で、文脈内学習に使用することができることを示す。
具体的には、1つの構造化状態空間モデル層が乗算入力と出力ゲーティングで拡張され、暗黙線形モデルの出力を再現できることを証明した。
また、状態空間モデルと線形自己意識の関係と、文脈内で学習する能力に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2024-10-15T15:22:38Z) - Unbiased Learning of Deep Generative Models with Structured Discrete
Representations [7.9057320008285945]
構造化可変オートエンコーダ(SVAE)の学習のための新しいアルゴリズムを提案する。
我々はSVAEがデータの欠落時に個別の潜伏変数を組み込むことでマルチモーダル不確実性を扱う能力を初めて示す。
メモリ効率の高い暗黙差分法により,SVAEは不完全最適化に対して頑健さを示しつつ,勾配降下により学習しやすくなった。
論文 参考訳(メタデータ) (2023-06-14T03:59:21Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Self-Reflective Variational Autoencoder [21.054722609128525]
変分オートエンコーダ(VAE)は潜在変数生成モデルを学習するための強力なフレームワークである。
自己回帰推論(self-reflective inference)と呼ばれるソリューションを導入します。
実験では, 後部と後部を正確に一致させることの明確な利点を実証的に示す。
論文 参考訳(メタデータ) (2020-07-10T05:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。