論文の概要: A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law
- arxiv url: http://arxiv.org/abs/2505.02665v1
- Date: Mon, 05 May 2025 14:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.700516
- Title: A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law
- Title(参考訳): 強化学習法と推論時間スケーリング法を用いたスローシンキング型推論LDMの検討
- Authors: Qianjun Pan, Wenkai Ji, Yuyang Ding, Junsong Li, Shilian Chen, Junyi Wang, Jie Zhou, Qin Chen, Min Zhang, Yulan Wu, Liang He,
- Abstract要約: 本調査は「スロー思考」を模倣した大規模言語モデル(LLM)の最近の進歩を考察する。
LLMは、数学の推論、視覚的推論、診断、マルチエージェントの議論などの複雑なタスクの間、動的に計算資源をスケーリングすることに焦点を当てている。
- 参考スコア(独自算出の注目度): 29.763080554625216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This survey explores recent advancements in reasoning large language models (LLMs) designed to mimic "slow thinking" - a reasoning process inspired by human cognition, as described in Kahneman's Thinking, Fast and Slow. These models, like OpenAI's o1, focus on scaling computational resources dynamically during complex tasks, such as math reasoning, visual reasoning, medical diagnosis, and multi-agent debates. We present the development of reasoning LLMs and list their key technologies. By synthesizing over 100 studies, it charts a path toward LLMs that combine human-like deep thinking with scalable efficiency for reasoning. The review breaks down methods into three categories: (1) test-time scaling dynamically adjusts computation based on task complexity via search and sampling, dynamic verification; (2) reinforced learning refines decision-making through iterative improvement leveraging policy networks, reward models, and self-evolution strategies; and (3) slow-thinking frameworks (e.g., long CoT, hierarchical processes) that structure problem-solving with manageable steps. The survey highlights the challenges and further directions of this domain. Understanding and advancing the reasoning abilities of LLMs is crucial for unlocking their full potential in real-world applications, from scientific discovery to decision support systems.
- Abstract(参考訳): この調査は、Kahneman氏のThinking, Fast and Slowに記述されているように、人間の認知にインスパイアされた推論プロセスである"スロー思考"を模倣した大規模言語モデル(LLM)の推論の最近の進歩を探求する。
OpenAIのo1のようなこれらのモデルは、数学の推論、視覚的推論、診断、マルチエージェントの議論といった複雑なタスクにおいて、計算リソースを動的にスケーリングすることに焦点を当てている。
推論LDMの開発について紹介し、その重要な技術をリストアップする。
100以上の研究を合成することで、人間のような深い思考と、推論のためのスケーラブルな効率性を組み合わせたLCMへの道のりをグラフ化します。
提案手法は,(1)探索,サンプリング,動的検証によるタスク複雑性に基づく計算の動的調整,(2)ポリシーネットワーク,報酬モデル,自己進化戦略を活用した反復的改善による意思決定の強化,(3)制御可能なステップで問題解決を構築する遅い思考フレームワーク(例えば,長いCoT,階層的プロセス)の3つのカテゴリに分類される。
調査では、この領域の課題とさらなる方向性を強調している。
LLMの推論能力の理解と進歩は、科学的な発見から意思決定支援システムに至るまで、現実世界の応用における可能性を完全に解き放つために不可欠である。
関連論文リスト
- A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - A Survey of Scaling in Large Language Model Reasoning [62.92861523305361]
大規模言語モデル(LLM)推論におけるスケーリングの総合的な検討について述べる。
我々は、多段階推論と論理的整合性を改善する推論ステップにおけるスケーリングを分析する。
我々は、反復モデルの改善による最適化に焦点を当て、トレーニング可能な推論のスケーリングについて論じる。
論文 参考訳(メタデータ) (2025-04-02T23:51:27Z) - Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models [31.556646366268286]
大規模言語モデルは、複雑なタスクを解決するために、より長い推論チェーンに依存している。
この試行錯誤アプローチは、しばしば高い計算オーバーヘッドとエラーの伝播をもたらす。
推論時間推論を動的に最適化するフレームワークであるMeta-Reasonerを紹介する。
論文 参考訳(メタデータ) (2025-02-27T09:40:13Z) - From System 1 to System 2: A Survey of Reasoning Large Language Models [72.99519859756602]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。
OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-02-24T18:50:52Z) - Advancing Reasoning in Large Language Models: Promising Methods and Approaches [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて著しく成功している。
複雑な推論スパンニング論理推論、数学的問題解決、コモンセンス推論、そして多段階推論を実行する能力は、人間の期待に届かない。
本調査は, LLMにおける推論向上技術に関する総合的なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-05T23:31:39Z) - Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。
最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。
OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文 参考訳(メタデータ) (2025-01-16T17:37:58Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。