論文の概要: Reasoning While Recommending: Entropy-Guided Latent Reasoning in Generative Re-ranking Models
- arxiv url: http://arxiv.org/abs/2601.13533v1
- Date: Tue, 20 Jan 2026 02:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.126319
- Title: Reasoning While Recommending: Entropy-Guided Latent Reasoning in Generative Re-ranking Models
- Title(参考訳): Reasoning while Recommending: Entropy-Guided Latent Reasoning in Generative Re-Senior Models
- Authors: Changshuo Zhang,
- Abstract要約: 本稿では,Entropy-Guided Latent Reasoning(EGLR)レコメンデーションモデルを提案する。
まず、"レコメンデーションファースト、レコメンデーション"パラダイムを捨てて"レコメンデーションしながらレコメンデーション"を実現する。
第二に、コンテキスト認識推論トークンを用いたエントロピー誘導可変長推論を実装している。
第三に、モデルは複雑な独立したモジュールや後処理を持たない軽量な統合設計を採用する。
- 参考スコア(独自算出の注目度): 1.043486140953423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning plays a crucial role in generative re-ranking scenarios due to its exploration-exploitation capabilities, but existing generative methods mostly fail to adapt to the dynamic entropy changes in model difficulty during list generation, making it challenging to accurately capture complex preferences. Given that language models have achieved remarkable breakthroughs by integrating reasoning capabilities, we draw on this approach to introduce a latent reasoning mechanism, and experimental validation demonstrates that this mechanism effectively reduces entropy in the model's decision-making process. Based on these findings, we introduce the Entropy-Guided Latent Reasoning (EGLR) recommendation model, which has three core advantages. First, it abandons the "reason first, recommend later" paradigm to achieve "reasoning while recommending", specifically designed for the high-difficulty nature of list generation by enabling real-time reasoning during generation. Second, it implements entropy-guided variable-length reasoning using context-aware reasoning token alongside dynamic temperature adjustment, expanding exploration breadth in reasoning and boosting exploitation precision in recommending to achieve a more precisely adapted exploration-exploitation trade-off. Third, the model adopts a lightweight integration design with no complex independent modules or post-processing, enabling easy adaptation to existing models. Experimental results on two real-world datasets validate the model's effectiveness, and its notable advantage lies in being compatible with existing generative re-ranking models to enhance their performance. Further analyses also demonstrate its practical deployment value and research potential.
- Abstract(参考訳): 強化学習は、探索・探索能力により、生成的再評価シナリオにおいて重要な役割を担っているが、既存の生成方法は、リスト生成中のモデル難易度における動的エントロピー変化にほとんど適応できず、複雑な嗜好を正確に捉えることは困難である。
言語モデルが推論機能の統合によって画期的なブレークスルーを達成したことを考慮し、潜伏推論機構を導入し、このメカニズムがモデルの意思決定プロセスにおけるエントロピーを効果的に減少させることを実験的に検証する。
これらの知見に基づき,Entropy-Guided Latent Reasoning(EGLR)レコメンデーションモデルを導入する。
第一に、"Reason first, recommend later"パラダイムを捨てて"reasoning while recommending"を達成し、特に、生成中のリアルタイム推論を可能にすることで、リスト生成の高難易度な性質のために設計された。
第二に、動的温度調整とともにコンテキスト認識推論トークンを用いてエントロピー誘導可変長推論を実装し、推論における探索幅を拡大し、より正確に適応された探索-探索トレードオフを達成するよう推奨する。
第三に、モデルは複雑な独立したモジュールや後処理を持たない軽量な統合設計を採用しており、既存のモデルへの適応が容易である。
2つの実世界のデータセットによる実験結果は、モデルの有効性を検証し、その顕著な利点は、それらの性能を高めるために既存の生成的再ランクモデルと互換性があることである。
さらなる分析は、その実践的な展開価値と研究の可能性も示している。
関連論文リスト
- Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning [31.727984223052648]
本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
論文 参考訳(メタデータ) (2025-05-06T08:46:41Z) - Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems [92.89673285398521]
o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。
推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。
提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-12T16:20:36Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。