論文の概要: Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation
- arxiv url: http://arxiv.org/abs/2505.17571v1
- Date: Fri, 23 May 2025 07:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.896299
- Title: Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation
- Title(参考訳): パーソナライズとReasoning : パーソナライズ・ジェネレーションのための大規模推論モデルの可能性
- Authors: Sichun Luo, Guanzhi Deng, Jian Xu, Xiaojie Zhang, Hanxu Hou, Linqi Song,
- Abstract要約: パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。
本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。
階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
- 参考スコア(独自算出の注目度): 21.89080753903469
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Personalization is a critical task in modern intelligent systems, with applications spanning diverse domains, including interactions with large language models (LLMs). Recent advances in reasoning capabilities have significantly enhanced LLMs, enabling unprecedented performance in tasks such as mathematics and coding. However, their potential for personalization tasks remains underexplored. In this paper, we present the first systematic evaluation of large reasoning models (LRMs) for personalization tasks. Surprisingly, despite generating more tokens, LRMs do not consistently outperform general-purpose LLMs, especially in retrieval-intensive scenarios where their advantages diminish. Our analysis identifies three key limitations: divergent thinking, misalignment of response formats, and ineffective use of retrieved information. To address these challenges, we propose Reinforced Reasoning for Personalization (\model), a novel framework that incorporates a hierarchical reasoning thought template to guide LRMs in generating structured outputs. Additionally, we introduce a reasoning process intervention method to enforce adherence to designed reasoning patterns, enhancing alignment. We also propose a cross-referencing mechanism to ensure consistency. Extensive experiments demonstrate that our approach significantly outperforms existing techniques.
- Abstract(参考訳): パーソナライゼーションは、大規模言語モデル(LLM)との相互作用を含む様々な領域にまたがる、現代のインテリジェントシステムにおいて重要なタスクである。
近年の推論能力の進歩はLLMを大幅に強化し、数学やコーディングといったタスクにおいて前例のない性能を実現している。
しかし、パーソナライズタスクの可能性はまだ未解明のままである。
本稿では、パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。
驚いたことに、より多くのトークンを生成するにもかかわらず、LRMは汎用LLMよりも一貫して優れているわけではない。
本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。
これらの課題に対処するために、階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (\model)を提案する。
さらに、設計された推論パターンの遵守を強制し、アライメントを強化するための推論プロセス介入手法も導入する。
また,一貫性を確保するための相互参照機構を提案する。
大規模な実験により、我々のアプローチは既存の技術よりも大幅に優れていることが示された。
関連論文リスト
- Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - Large Language Models Post-training: Surveying Techniques from Alignment to Reasoning [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では、FEMモジュールと協調して事前訓練された大規模言語モデル(LLM)を利用して、構造設計を自律的に生成、評価、洗練するフレームワークを提案する。
LLMはドメイン固有の微調整なしで動作し、設計候補を提案し、FEMから派生した性能指標を解釈し、構造的な音響修正を適用する。
NSGA-II (Non-Sorting Genetic Algorithm II) と比較して,本手法はより高速に収束し,より少ないFEM評価を実現する。
論文 参考訳(メタデータ) (2024-04-26T16:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。