論文の概要: Hybrid Latent Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.18454v1
- Date: Sat, 24 May 2025 01:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.433922
- Title: Hybrid Latent Reasoning via Reinforcement Learning
- Title(参考訳): 強化学習によるハイブリッド潜時推論
- Authors: Zhenrui Yue, Bowen Jin, Huimin Zeng, Honglei Zhuang, Zhen Qin, Jinsung Yoon, Lanyu Shang, Jiawei Han, Dong Wang,
- Abstract要約: 大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
- 参考スコア(独自算出の注目度): 51.06635386903026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have introduced latent reasoning as a promising alternative to autoregressive reasoning. By performing internal computation with hidden states from previous steps, latent reasoning benefit from more informative features rather than sampling a discrete chain-of-thought (CoT) path. Yet latent reasoning approaches are often incompatible with LLMs, as their continuous paradigm conflicts with the discrete nature of autoregressive generation. Moreover, these methods rely on CoT traces for training and thus fail to exploit the inherent reasoning patterns of LLMs. In this work, we explore latent reasoning by leveraging the intrinsic capabilities of LLMs via reinforcement learning (RL). To this end, we introduce hybrid reasoning policy optimization (HRPO), an RL-based hybrid latent reasoning approach that (1) integrates prior hidden states into sampled tokens with a learnable gating mechanism, and (2) initializes training with predominantly token embeddings while progressively incorporating more hidden features. This design maintains LLMs' generative capabilities and incentivizes hybrid reasoning using both discrete and continuous representations. In addition, the hybrid HRPO introduces stochasticity into latent reasoning via token sampling, thereby enabling RL-based optimization without requiring CoT trajectories. Extensive evaluations across diverse benchmarks show that HRPO outperforms prior methods in both knowledge- and reasoning-intensive tasks. Furthermore, HRPO-trained LLMs remain interpretable and exhibit intriguing behaviors like cross-lingual patterns and shorter completion lengths, highlighting the potential of our RL-based approach and offer insights for future work in latent reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、自己回帰推論に代わる有望な代替手段として潜時推論を導入している。
従来のステップから隠れた状態で内部計算を行うことで、遅延推論は個々のチェーン・オブ・シンク(CoT)パスをサンプリングするよりも、より情報的な特徴の恩恵を受ける。
しかし、その連続的パラダイムは自己回帰生成の離散的な性質と矛盾するため、近年の推論アプローチはLLMと相容れないことが多い。
さらに、これらの手法は訓練にCoTトレースに依存するため、LLMの固有の推論パターンを活用できない。
本研究では,LLMの本質的能力を活用した強化学習(RL)による潜時推論について検討する。
そこで本研究では,(1)隠れた状態を学習可能なゲーティング機構でサンプルトークンに統合し,(2)隠れた特徴を徐々に取り入れつつ,主にトークン埋め込みによるトレーニングを初期化するハイブリッド推論ポリシー最適化(HRPO)を提案する。
この設計はLLMの生成能力を維持し、離散表現と連続表現の両方を用いてハイブリッド推論を動機付けている。
さらに、ハイブリッドHRPOはトークンサンプリングによる潜在推論に確率性を導入し、CoTトラジェクトリを必要とせずにRLベースの最適化を可能にする。
様々なベンチマークによる広範囲な評価は、HRPOが知識と推論の双方で従来の手法よりも優れていることを示している。
さらに,HRPOをトレーニングしたLLMは解釈可能であり,言語間のパターンや完成期間の短縮といった興味深い行動を示し,RLベースのアプローチの可能性を強調し,潜在推論における今後の研究に対する洞察を提供する。
関連論文リスト
- Reinforced Latent Reasoning for LLM-based Recommendation [83.18146814163308]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals [45.019257216564036]
本稿では,パーソナライズされた選好推論のレンズを用いた大規模言語モデル(LLM)の拡張帰納的推論について検討する。
我々は,ユーザインタラクション履歴における行動信号からの系統的な選好推定を可能にするために,拡張推論連鎖を利用したtextscAlignXploreを提案する。
我々は、textscAlignXploreが、ドメイン内およびドメイン外のベンチマークで平均11.05%、バックボーンモデルよりも大幅に改善されていることを実証した。
論文 参考訳(メタデータ) (2025-05-23T16:16:46Z) - LeTS: Learning to Think-and-Search via Process-and-Outcome Reward Hybridization [30.95342819013663]
大規模言語モデル(LLM)は、推論において印象的な能力を示している。
近年の研究では、検索結果教師付き強化学習(RL)アプローチを通じて、推論能力を検索強化世代(RAG)領域に統合することに焦点を当てている。
我々は、段階的なプロセス報酬と結果に基づく報酬をRAGのための現在のRL手法にハイブリダイズする新しいフレームワークであるLearning to Think-and-Search(LeTS)を提案する。
論文 参考訳(メタデータ) (2025-05-23T04:04:05Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
LARESは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs [14.78605805191225]
近年,大規模言語モデル(LLM)の強化学習に基づくポストトレーニングが注目されている。
これらの手法の基礎となる定式化と仮定を批判的に検討する。
論文 参考訳(メタデータ) (2025-05-19T19:57:15Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。
最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。
OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文 参考訳(メタデータ) (2025-01-16T17:37:58Z) - OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models [68.17018458283651]
本研究は,LLMのチェーン・オブ・思想能力のオフライン評価に焦点をあてる。
我々は知識グラフ(例えばWikidata5m)を使って、生成された思考の連鎖に対するフィードバックを提供する。
提案手法に基づいてLCMを最適化する方法を示す。
論文 参考訳(メタデータ) (2024-10-31T07:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。