論文の概要: Reasoning Beyond Limits: Advances and Open Problems for LLMs
- arxiv url: http://arxiv.org/abs/2503.22732v1
- Date: Wed, 26 Mar 2025 12:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:47.041479
- Title: Reasoning Beyond Limits: Advances and Open Problems for LLMs
- Title(参考訳): LLMの進歩とオープンな課題
- Authors: Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah,
- Abstract要約: 最近の生成的推論のブレークスルーは、大規模言語モデル(LLM)が複雑な問題にどのように対処するかを変えた。
2023年から2025年の間にリリースされた上位27のLLMモデルを総合的に分析する。
人間の監督なしに多段階推論を改善することを含む,LLMの能力向上における重要な課題について論じる。
- 参考スコア(独自算出の注目度): 1.4929298667651645
- License:
- Abstract: Recent generative reasoning breakthroughs have transformed how large language models (LLMs) tackle complex problems by dynamically retrieving and refining information while generating coherent, multi-step thought processes. Techniques such as inference-time scaling, reinforcement learning, supervised fine-tuning, and distillation have been successfully applied to models like DeepSeek-R1, OpenAI's o1 & o3, GPT-4o, Qwen-32B, and various Llama variants, resulting in enhanced reasoning capabilities. In this paper, we provide a comprehensive analysis of the top 27 LLM models released between 2023 and 2025 (including models such as Mistral AI Small 3 24B, DeepSeek-R1, Search-o1, QwQ-32B, and phi-4). Then, we present an extensive overview of training methodologies that spans general training approaches, mixture-of-experts (MoE) and architectural innovations, retrieval-augmented generation (RAG), chain-of-thought and self-improvement techniques, as well as test-time compute scaling, distillation, and reinforcement learning (RL) methods. Finally, we discuss the key challenges in advancing LLM capabilities, including improving multi-step reasoning without human supervision, overcoming limitations in chained tasks, balancing structured prompts with flexibility, and enhancing long-context retrieval and external tool integration.
- Abstract(参考訳): 最近の生成的推論のブレークスルーは、一貫性のある多段階の思考プロセスを生成しながら、動的に情報を検索し、精製することで、大きな言語モデル(LLM)が複雑な問題にどのように対処するかを変えている。
推論時間スケーリング、強化学習、教師付き微調整、蒸留といった技術は、DeepSeek-R1、OpenAIのo1 & o3、GPT-4o、Qwen-32B、および様々なラマ変種にうまく適用され、推論能力が向上した。
本稿では,2023年から2025年の間にリリースされた上位27のLLMモデル(Mistral AI Small 3 24B, DeepSeek-R1, Search-o1, QwQ-32B, phi-4など)を総合的に分析する。
そこで,本研究では,一般のトレーニング手法,MoE(Mix-of-Experts)とアーキテクチャの革新,RAG(Require-augmented Generation),チェーン・オブ・シンクと自己改善技術,テストタイム・コンピューティング・スケーリング,蒸留,強化学習(RL)の手法にまたがる学習手法について概説する。
最後に、人間の監督なしに多段階推論を改善すること、連鎖タスクの制限を克服すること、構造化プロンプトと柔軟性のバランスをとること、長期コンテキスト検索と外部ツール統合の強化など、LLMの能力向上における重要な課題について議論する。
関連論文リスト
- Revisiting Robust RAG: Do We Still Need Complex Robust Training in the Era of Powerful LLMs? [69.38149239733994]
モデル容量が増大するにつれて、複雑な堅牢なトレーニング戦略が必要かどうかを検討する。
モデルがより強力になるにつれて、複雑な堅牢なトレーニングメソッドによってもたらされるパフォーマンス向上が劇的に減少することがわかった。
この結果から,RAGシステムはモデルがより強力になるにつれて,よりシンプルなアーキテクチャやトレーニング戦略の恩恵を受けることが示唆された。
論文 参考訳(メタデータ) (2025-02-17T03:34:31Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Reasoning Language Models: A Blueprint [12.966875494760785]
推論言語モデル(RLM)は、AIの問題解決能力を再定義した。
しかし、それらの高コスト、プロプライエタリな性質、複雑なアーキテクチャは、アクセシビリティとスケーラビリティの課題を提示している。
RLMをモジュラーフレームワークに編成する包括的青写真を提案する。
論文 参考訳(メタデータ) (2025-01-20T02:16:19Z) - Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。
最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。
OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文 参考訳(メタデータ) (2025-01-16T17:37:58Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions [15.350973327319418]
大規模言語モデル(LLM)は、ますます広範囲の日常アプリケーションに統合されている。
このことは、LLMの振る舞いの研究から得られた洞察の複製性と一般化可能性に関する懸念を提起する。
GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, Llama 3-70Bをチェーン・オブ・ソート, EmotionPrompting, ExpertPrompting, Sandbagging, Re-Reading prompt Engineering Techniqueでテストした。
論文 参考訳(メタデータ) (2024-09-30T14:00:34Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models [71.25225058845324]
大規模言語モデル(LLM)は、言語理解と生成において革命的な能力を示している。
Retrieval-Augmented Generation (RAG)は、信頼性と最新の外部知識を提供する。
RA-LLMは、モデルの内部知識に頼るのではなく、外部および権威的な知識ベースを活用するために登場した。
論文 参考訳(メタデータ) (2024-05-10T02:48:45Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。