論文の概要: Why Thinking Hurts? Diagnosing and Rectifying the Reasoning Shift in Foundation Recommender Models
- arxiv url: http://arxiv.org/abs/2602.16587v1
- Date: Wed, 18 Feb 2026 16:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.651475
- Title: Why Thinking Hurts? Diagnosing and Rectifying the Reasoning Shift in Foundation Recommender Models
- Title(参考訳): なぜハルトを考えるのか : 基礎推薦モデルにおける推論シフトの診断と定量化
- Authors: Luankang Zhang, Yonghao Huang, Hang Lv, Mingjia Yin, Liangyue Li, Zulong Chen, Hao Wang, Enhong Chen,
- Abstract要約: トレーニング不要な推論時間部分空間アライメントフレームワークを提案する。
推論チェインを圧縮し、バイアス抽出されたコントラストデコーディングを適用することにより、本手法は非基底的テキストドリフトを緩和する。
実験では、この推論を効果的に校正し、基礎モデルでは、ID基底精度を犠牲にすることなく推論を活用できる。
- 参考スコア(独自算出の注目度): 44.74420486421283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating Chain-of-Thought (CoT) reasoning into Semantic ID-based recommendation foundation models (such as OpenOneRec) often paradoxically degrades recommendation performance. We identify the root cause as textual inertia from the General Subspace, where verbose reasoning dominates inference and causes the model to neglect critical Semantic ID. To address this, we propose a training-free Inference-Time Subspace Alignment framework. By compressing reasoning chains and applying bias-subtracted contrastive decoding, our approach mitigates ungrounded textual drift. Experiments show this effectively calibrates inference, allowing foundation models to leverage reasoning without sacrificing ID-grounded accuracy.
- Abstract(参考訳): CoT(Chain-of-Thought)推論をセマンティックIDベースのレコメンデーション基盤モデル(OpenOneRecなど)に統合することは、しばしばレコメンデーションパフォーマンスをパラドックス的に低下させる。
そこでは,動詞推論が推論を支配し,重要なセマンティックIDを無視する原因となっている。
そこで本研究では,トレーニング不要な推論時部分空間アライメントフレームワークを提案する。
推論チェインを圧縮し、バイアス抽出されたコントラストデコーディングを適用することにより、本手法は非基底的テキストドリフトを緩和する。
実験では、これを効果的に校正し、基礎モデルでは、ID基底精度を犠牲にすることなく推論を活用できる。
関連論文リスト
- ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization [9.193078163792427]
CoT(Chain-of-Thought)は、大規模言語モデル(LLM)に複雑な問題に取り組む権限を与える。
最近の潜伏推論手法は、連続した隠蔽状態内で推論を行うことによって効率を最適化しようとする。
PLaTは、潜在推論を言語化から根本的に切り離すことによって計画として再構成するフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T07:38:18Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - Aligning Deep Implicit Preferences by Learning to Reason Defensively [22.548051297731416]
優先推論のギャップを埋めるために,批判駆動推論アライメント(CDRA)を提案する。
CDRAはスカラー報酬マッチングタスクから構造化推論プロセスにアライメントを再構成する。
実験により、CDRAは、堅牢な推論を実行しながら、ユーザの真の嗜好を発見し、整合するのに優れていることが示された。
論文 参考訳(メタデータ) (2025-10-13T09:26:47Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Abductive Commonsense Reasoning Exploiting Mutually Exclusive
Explanations [118.0818807474809]
帰納的推論は、イベントのもっともらしい説明を見つけることを目的としている。
自然言語処理における帰納的推論のための既存のアプローチは、しばしば監督のために手動で生成されたアノテーションに依存している。
この研究は、ある文脈に対して、説明のサブセットのみが正しいという事実を活用する、帰納的コモンセンス推論のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。