論文の概要: Tagging the Thought: Unlocking Personalization Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.23140v1
- Date: Sat, 27 Sep 2025 06:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.064564
- Title: Tagging the Thought: Unlocking Personalization Reasoning via Reinforcement Learning
- Title(参考訳): 思考のタグ付け:強化学習によるパーソナライズ推論のアンロック
- Authors: Song Jin, Juntian Zhang, Yong Liu, Xun Zhang, Yufei Zhang, Fei Jiang, Guojun Yin, Wei Lin, Rui Yan,
- Abstract要約: 個人化推論のための言語モデルの本質的な能力を高める新しいトレーニングフレームワークであるTagPRを紹介する。
我々の手法は最先端の結果を達成し、すべてのタスクでベースモデルに対して平均32.65%の改善を提供する。
- 参考スコア(独自算出の注目度): 28.86134365096663
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements have endowed Large Language Models (LLMs) with impressive general reasoning capabilities, yet they often struggle with personalization reasoning - the crucial ability to analyze user history, infer unique preferences, and generate tailored responses. To address this limitation, we introduce TagPR, a novel training framework that significantly enhances an LLM's intrinsic capacity for personalization reasoning through a tagging the thought approach. Our method first develops a data-driven pipeline to automatically generate and semantically label reasoning chains, creating a structured dataset that fosters interpretable reasoning. We then propose a synergistic training strategy that begins with Supervised Fine-Tuning (SFT) on this tagged data to establish foundational reasoning patterns, followed by a multi-stage reinforcement learning (RL) process. This RL phase is guided by a unique composite reward signal, which integrates tag-based constraints and a novel Personalization Reward Model with User Embeddings (PRMU) to achieve fine-grained alignment with user-specific logic. Extensive experiments on the public LaMP benchmark and a self-constructed dataset demonstrate that our approach achieves state-of-the-art results, delivering an average improvement of 32.65% over the base model across all tasks. Our work validates that structured, interpretable reasoning is a highly effective pathway to unlocking genuine personalization capabilities in LLMs.
- Abstract(参考訳): 最近の進歩は、印象的な一般的な推論能力を持つLarge Language Models (LLMs) を授けていますが、多くの場合、パーソナライズ推論(パーソナライズ推論)に苦慮しています。
この制限に対処するために,思考アプローチのタグ付けを通じてパーソナライズ推論のためのLLM固有の能力を大幅に向上させる,新しいトレーニングフレームワークであるTagPRを紹介した。
提案手法はまず,データ駆動型パイプラインを用いて推論連鎖を自動生成し,意味的にラベル付けし,解釈可能な推論を促進する構造化データセットを作成する。
次に、このタグ付けされたデータにスーパーバイザード・ファイン・チューニング(SFT)を導入し、基礎的推論パターンを確立し、その後に多段階強化学習(RL)プロセスを提案する。
このRLフェーズは、タグベースの制約と新しいパーソナライゼーション・リワードモデル(Personalization Reward Model with User Embeddings, PRMU)を統合したユニークな合成報酬信号によって導かれる。
パブリックなLaMPベンチマークと自己構築されたデータセットに関する大規模な実験は、我々のアプローチが最先端の結果を達成し、すべてのタスクにわたってベースモデルに対して平均32.65%の改善を提供することを示した。
我々の研究は、構造化された解釈可能な推論が、LLMにおける真のパーソナライズ能力の解放に極めて効果的な経路であることを検証している。
関連論文リスト
- Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation [21.89080753903469]
パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。
本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。
階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
論文 参考訳(メタデータ) (2025-05-23T07:30:13Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。