Fugu-MT 論文翻訳(概要): A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems

論文の概要: A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems

arxiv url: http://arxiv.org/abs/2504.09037v1
Date: Sat, 12 Apr 2025 01:27:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 02:00:25.64838
Title: A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems
Title（参考訳）: LLM推論のフロンティアに関する調査:推論スケーリング、推論学習、エージェントシステム
Authors: Zixuan Ke, Fangkai Jiao, Yifei Ming, Xuan-Phi Nguyen, Austin Xu, Do Xuan Long, Minzhi Li, Chengwei Qin, Peifeng Wang, Silvio Savarese, Caiming Xiong, Shafiq Joty,
Abstract要約: 推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
参考スコア（独自算出の注目度）: 93.8285345915925
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning is a fundamental cognitive process that enables logical inference, problem-solving, and decision-making. With the rapid advancement of large language models (LLMs), reasoning has emerged as a key capability that distinguishes advanced AI systems from conventional models that empower chatbots. In this survey, we categorize existing methods along two orthogonal dimensions: (1) Regimes, which define the stage at which reasoning is achieved (either at inference time or through dedicated training); and (2) Architectures, which determine the components involved in the reasoning process, distinguishing between standalone LLMs and agentic compound systems that incorporate external tools, and multi-agent collaborations. Within each dimension, we analyze two key perspectives: (1) Input level, which focuses on techniques that construct high-quality prompts that the LLM condition on; and (2) Output level, which methods that refine multiple sampled candidates to enhance reasoning quality. This categorization provides a systematic understanding of the evolving landscape of LLM reasoning, highlighting emerging trends such as the shift from inference-scaling to learning-to-reason (e.g., DeepSeek-R1), and the transition to agentic workflows (e.g., OpenAI Deep Research, Manus Agent). Additionally, we cover a broad spectrum of learning algorithms, from supervised fine-tuning to reinforcement learning such as PPO and GRPO, and the training of reasoners and verifiers. We also examine key designs of agentic workflows, from established patterns like generator-evaluator and LLM debate to recent innovations. ...
Abstract（参考訳）: 推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、チャットボットを強化する従来のモデルと高度なAIシステムを区別する重要な能力として推論が登場した。本研究では,(1)推論が達成される段階(推論時間,あるいは専用トレーニング)を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャ,および外部ツールを組み込んだエージェント複合システムとマルチエージェント協調を区別するアーキテクチャ,の2つの直交次元に沿って既存の手法を分類する。各次元において,(1)LLM条件がオンとなるような高品質なプロンプトを構築する技術に焦点をあてた入力レベル,(2)複数のサンプル候補を洗練して推論品質を高める手法である出力レベル,の2つの重要な視点を解析する。この分類は、LLM推論の進化する風景を体系的に理解し、推論スケーリングから学習領域への移行(DeepSeek-R1など)、エージェントワークフローへの移行(OpenAI Deep Research、Manus Agentなど)など、新たなトレンドを浮き彫りにしている。さらに、教師付き微調整からPPOやGRPOなどの強化学習、推論器と検証器の訓練まで、幅広い学習アルゴリズムを網羅する。我々はまた、ジェネレータ評価器やLLM議論のような確立されたパターンから最近のイノベーションまで、エージェントワークフローの鍵となる設計についても検討する。はぁ...。

関連論文リスト

From Standalone LLMs to Integrated Intelligence: A Survey of Compound Al Systems [6.284317913684068]
複合アルシステム(CAIS)は、大規模な言語モデル(LLM)をレトリバー、エージェント、ツール、オーケストレータといった外部コンポーネントと統合する新興パラダイムである。学術と産業の両方で採用が増加しているにもかかわらず、CAISの景観は断片化され、分析、分類、評価のための統一された枠組みが欠如している。本調査は,次世代のシステムレベルの人工知能を理解し,開発し,推進するための総合的な基盤を研究者や実践者に提供することを目的とする。
論文参考訳（メタデータ） (2025-06-05T02:34:43Z)
A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law [29.763080554625216]
本調査は「スロー思考」を模倣した大規模言語モデル(LLM)の最近の進歩を考察する。 LLMは、数学の推論、視覚的推論、診断、マルチエージェントの議論などの複雑なタスクの間、動的に計算資源をスケーリングすることに焦点を当てている。
論文参考訳（メタデータ） (2025-05-05T14:14:59Z)
From System 1 to System 2: A Survey of Reasoning Large Language Models [72.99519859756602]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。 OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文参考訳（メタデータ） (2025-02-24T18:50:52Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Attention Heads of Large Language Models: A Survey [10.136767972375639]
我々は,大規模言語モデル (LLM) の内部的推論過程を体系的に検討し,その役割と機構を解明することを目的としている。まず,人間の思考プロセスにインスパイアされた新しい4段階のフレームワーク,知識のリコール,文脈内同定,潜在推論,表現準備を紹介する。本稿では,これらの特殊ヘッドの発見に使用する実験手法を,モデリング自由法とモデリング要求法という2つのカテゴリに分けて分析する。
論文参考訳（メタデータ） (2024-09-05T17:59:12Z)
CogniDual Framework: Self-Training Large Language Models within a Dual-System Theoretical Framework for Improving Cognitive Tasks [39.43278448546028]
カーネマンの二重系理論は人間の意思決定過程を解明し、素早い直感的なシステム1と合理的なシステム2を区別する。近年の大きな言語モデル (LLMs) は、認知タスクにおける人間レベルの習熟度に近づきやすいツールとして位置づけられている。本研究では、自己学習を通じて、意図的な推論から直感的な応答へと進化するLLM(textbfCognidual Framework for LLMs, CFLLMs)について述べる。
論文参考訳（メタデータ） (2024-09-05T09:33:24Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Multi-step Inference over Unstructured Data [2.169874047093392]
医療、法律、金融などの分野における高い意思決定タスクは、精度、包括性、論理的一貫性のレベルを必要とする。これらの問題に対処するための,ニューロシンボリックAIプラットフォームを開発した。このプラットフォームは、知識抽出とアライメントのための微調整LDMと、堅牢なシンボリック推論エンジンを統合している。
論文参考訳（メタデータ） (2024-06-26T00:00:45Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Investigating Bi-Level Optimization for Learning and Vision from a Unified Perspective: A Survey and Beyond [114.39616146985001]
機械学習やコンピュータビジョンの分野では、モチベーションやメカニズムが異なるにもかかわらず、複雑な問題の多くは、一連の密接に関連するサブプロトコルを含んでいる。本稿では,BLO(Bi-Level Optimization)の観点から,これらの複雑な学習と視覚問題を一様に表現する。次に、値関数に基づく単一レベル再構成を構築し、主流勾配に基づくBLO手法を理解し、定式化するための統一的なアルゴリズムフレームワークを確立する。
論文参考訳（メタデータ） (2021-01-27T16:20:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。