論文の概要: Lightweight Latent Reasoning for Narrative Tasks
- arxiv url: http://arxiv.org/abs/2512.02240v1
- Date: Mon, 01 Dec 2025 22:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.63045
- Title: Lightweight Latent Reasoning for Narrative Tasks
- Title(参考訳): 物語課題に対する軽量潜時推論
- Authors: Alexander Gurung, Nikolay Malkin, Mirella Lapata,
- Abstract要約: 大規模言語モデル(LLM)は、思考の長い連鎖や「推論トレース」を生成することで複雑なタスクに取り組む
本稿では,LiteReasonを提案する。LiteReasonは,標準的なトークンサンプリングとインターリーブすることができ,強化学習と簡単に組み合わせることができる。
LiteReasonは軽量なReasoning Projectorモジュールを使用しており、モデル'スキップ'推論ステップに役立つ持続的な遅延トークンを生成するように訓練されている。
- 参考スコア(独自算出の注目度): 89.94576985780549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) tackle complex tasks by generating long chains of thought or "reasoning traces" that act as latent variables in the generation of an output given a query. A model's ability to generate such traces can be optimized with reinforcement learning (RL) to improve their utility in predicting an answer. This optimization comes at a high computational cost, especially for narrative-related tasks that involve retrieving and processing many tokens. To this end, we propose LiteReason, a latent reasoning method that can be interleaved with standard token sampling and easily combined with RL techniques. LiteReason employs a lightweight Reasoning Projector module, trained to produce continuous latent tokens that help the model 'skip' reasoning steps. During RL, the policy model decides when to activate the projector, switching between latent and discrete reasoning as needed. Experimental results on plot hole detection and book chapter generation show that our method outperforms latent reasoning baselines and comes close to matching non-latent RL training, while reducing final reasoning length by 77-92%. Overall, LiteReason guides RL training to a more efficient part of the performance-computation tradeoff curve.
- Abstract(参考訳): 大規模言語モデル(LLM)は、クエリが与えられた出力の生成において遅延変数として機能する、思考の長い連鎖や「推論トレース」を生成することで複雑なタスクに対処する。
このようなトレースを生成するモデルの能力は、強化学習(RL)によって最適化され、解の予測における有用性を改善することができる。
この最適化は高い計算コストを伴い、特に多くのトークンの検索と処理を含む物語に関連したタスクに対して行われる。
この目的のために,標準トークンサンプリングとインターリーブでき,かつRL手法と容易に組み合わせることができる潜在推論手法LiteReasonを提案する。
LiteReasonは軽量なReasoning Projectorモジュールを採用しており、モデル 'skip' 推論ステップを支援するために、連続的な遅延トークンを生成するように訓練されている。
RLの間、ポリシーモデルはいつプロジェクターを起動するかを決め、必要に応じて遅延推論と離散推論を切り替える。
プロットホール検出および本章生成実験の結果,提案手法は潜在推論基準よりも優れ,一致しないRLトレーニングに近づき,最終推論長を77~92%削減した。
全体として、LiteReasonはRLトレーニングをパフォーマンス計算トレードオフ曲線のより効率的な部分へと導く。
関連論文リスト
- Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。
そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文 参考訳(メタデータ) (2025-11-16T03:12:40Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization [16.51303604678232]
Reasoning Compression ThroUgh Stepwise Trials (ReCUT) は推論軌道の精度と長さのバランスをとるための新しい手法である。
複数の数学推論データセットとバックボーンモデルによる実験結果から、ReCUTは推論の長さを約30~50%削減することが示された。
論文 参考訳(メタデータ) (2025-06-12T15:43:01Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [67.87579664988199]
TONは視覚言語モデル(VLM)のための2段階のトレーニング戦略である
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。