Fugu-MT 論文翻訳(概要): Reasoning Beyond Limits: Advances and Open Problems for LLMs

論文の概要: Reasoning Beyond Limits: Advances and Open Problems for LLMs

arxiv url: http://arxiv.org/abs/2503.22732v1
Date: Wed, 26 Mar 2025 12:29:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.745573
Title: Reasoning Beyond Limits: Advances and Open Problems for LLMs
Title（参考訳）: LLMの進歩とオープンな課題
Authors: Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah,
Abstract要約: 最近の生成的推論のブレークスルーは、大規模言語モデル(LLM)が複雑な問題にどのように対処するかを変えた。 2023年から2025年の間にリリースされた上位27のLLMモデルを総合的に分析する。人間の監督なしに多段階推論を改善することを含む,LLMの能力向上における重要な課題について論じる。
参考スコア（独自算出の注目度）: 1.4929298667651645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent generative reasoning breakthroughs have transformed how large language models (LLMs) tackle complex problems by dynamically retrieving and refining information while generating coherent, multi-step thought processes. Techniques such as inference-time scaling, reinforcement learning, supervised fine-tuning, and distillation have been successfully applied to models like DeepSeek-R1, OpenAI's o1 & o3, GPT-4o, Qwen-32B, and various Llama variants, resulting in enhanced reasoning capabilities. In this paper, we provide a comprehensive analysis of the top 27 LLM models released between 2023 and 2025 (including models such as Mistral AI Small 3 24B, DeepSeek-R1, Search-o1, QwQ-32B, and phi-4). Then, we present an extensive overview of training methodologies that spans general training approaches, mixture-of-experts (MoE) and architectural innovations, retrieval-augmented generation (RAG), chain-of-thought and self-improvement techniques, as well as test-time compute scaling, distillation, and reinforcement learning (RL) methods. Finally, we discuss the key challenges in advancing LLM capabilities, including improving multi-step reasoning without human supervision, overcoming limitations in chained tasks, balancing structured prompts with flexibility, and enhancing long-context retrieval and external tool integration.
Abstract（参考訳）: 最近の生成的推論のブレークスルーは、一貫性のある多段階の思考プロセスを生成しながら、動的に情報を検索し、精製することで、大きな言語モデル(LLM)が複雑な問題にどのように対処するかを変えている。推論時間スケーリング、強化学習、教師付き微調整、蒸留といった技術は、DeepSeek-R1、OpenAIのo1 & o3、GPT-4o、Qwen-32B、および様々なラマ変種にうまく適用され、推論能力が向上した。本稿では,2023年から2025年の間にリリースされた上位27のLLMモデル(Mistral AI Small 3 24B, DeepSeek-R1, Search-o1, QwQ-32B, phi-4など)を総合的に分析する。そこで,本研究では,一般のトレーニング手法,MoE(Mix-of-Experts)とアーキテクチャの革新,RAG(Require-augmented Generation),チェーン・オブ・シンクと自己改善技術,テストタイム・コンピューティング・スケーリング,蒸留,強化学習(RL)の手法にまたがる学習手法について概説する。最後に、人間の監督なしに多段階推論を改善すること、連鎖タスクの制限を克服すること、構造化プロンプトと柔軟性のバランスをとること、長期コンテキスト検索と外部ツール統合の強化など、LLMの能力向上における重要な課題について議論する。

関連論文リスト

Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-07-16T17:59:24Z)
ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context [66.15505423059234]
ASTROは,検索アルゴリズムのような推論のために,言語モデルをトレーニングするためのフレームワークである。 ASTROをLlama 3モデルのモデルに適用し,MATH-500では16.4%,AMC 2023では26.9%,AIME 2024では20.0%,絶対的な性能向上を達成した。
論文参考訳（メタデータ） (2025-07-01T04:10:15Z)
RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism [10.288667305064065]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。 LLMは、静的な内部知識のために、幻覚または時代遅れの応答を生成する傾向にある。 Retrieval-Augmented Generation(RAG)法の最近の進歩は、モデルの探索と推論能力の向上を目的としている。
論文参考訳（メタデータ） (2025-06-30T09:02:45Z)
A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law [29.763080554625216]
本調査は「スロー思考」を模倣した大規模言語モデル(LLM)の最近の進歩を考察する。 LLMは、数学の推論、視覚的推論、診断、マルチエージェントの議論などの複雑なタスクの間、動的に計算資源をスケーリングすることに焦点を当てている。
論文参考訳（メタデータ） (2025-05-05T14:14:59Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Evaluating Mathematical Reasoning Across Large Language Models: A Fine-Grained Approach [15.960271016276447]
8大言語モデル(LLM)における数学的推論能力の体系的評価について述べる。 DeepSeek-R1は、ほとんどのドメインでo1と競合し、MMLU Formal Logicベンチマークで最高精度を達成する。アーキテクチャの選択、トレーニングパラダイム、最適化戦略が、推論性能の変動にどのように貢献するかを考察する。
論文参考訳（メタデータ） (2025-03-13T17:23:45Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文参考訳（メタデータ） (2025-01-16T17:37:58Z)
Diving into Self-Evolving Training for Multimodal Reasoning [36.70979791148913]
自己進化的トレインは複雑な推論タスクの鍵となるアプローチとして登場した。本稿では,強化学習のレンズによるマルチモーダル推論のための自己進化学習を再構成する。 M-STARは、様々なサイズと多様なベンチマークのモデル間で一貫したパフォーマンス向上を実現するフレームワークである。
論文参考訳（メタデータ） (2024-12-23T10:18:41Z)
A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions [15.350973327319418]
大規模言語モデル(LLM)は、ますます広範囲の日常アプリケーションに統合されている。このことは、LLMの振る舞いの研究から得られた洞察の複製性と一般化可能性に関する懸念を提起する。 GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, Llama 3-70Bをチェーン・オブ・ソート, EmotionPrompting, ExpertPrompting, Sandbagging, Re-Reading prompt Engineering Techniqueでテストした。
論文参考訳（メタデータ） (2024-09-30T14:00:34Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。