論文の概要: Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities
- arxiv url: http://arxiv.org/abs/2503.11074v1
- Date: Fri, 14 Mar 2025 04:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:29.170398
- Title: Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities
- Title(参考訳): エージェントシナリオにおける大規模推論モデル:推論能力の必要性を探る
- Authors: Xueyang Zhou, Guiyao Tie, Guowen Zhang, Weidong Wang, Zhigang Zuo, Di Wu, Duanfeng Chu, Pan Zhou, Lichao Sun, Neil Zhenqiang Gong,
- Abstract要約: ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
- 参考スコア(独自算出の注目度): 74.35956310688164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of Large Reasoning Models (LRMs) signifies a paradigm shift toward advanced computational reasoning. Yet, this progress disrupts traditional agent frameworks, traditionally anchored by execution-oriented Large Language Models (LLMs). To explore this transformation, we propose the LaRMA framework, encompassing nine tasks across Tool Usage, Plan Design, and Problem Solving, assessed with three top LLMs (e.g., Claude3.5-sonnet) and five leading LRMs (e.g., DeepSeek-R1). Our findings address four research questions: LRMs surpass LLMs in reasoning-intensive tasks like Plan Design, leveraging iterative reflection for superior outcomes; LLMs excel in execution-driven tasks such as Tool Usage, prioritizing efficiency; hybrid LLM-LRM configurations, pairing LLMs as actors with LRMs as reflectors, optimize agent performance by blending execution speed with reasoning depth; and LRMs' enhanced reasoning incurs higher computational costs, prolonged processing, and behavioral challenges, including overthinking and fact-ignoring tendencies. This study fosters deeper inquiry into LRMs' balance of deep thinking and overthinking, laying a critical foundation for future agent design advancements.
- Abstract(参考訳): LRM(Large Reasoning Models)の台頭は、高度な計算推論へのパラダイムシフトを表している。
しかし、この進歩は従来のエージェントフレームワークを妨害し、伝統的に実行指向のLarge Language Models (LLMs)によって固定される。
この変換を探索するために,ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案し,上位3つのLLM(例: Claude3.5-sonnet)と5つの主要なLRM(例: DeepSeek-R1)を用いて評価した。
LRMは、計画設計や反復的リフレクションの活用、ツールの使用、効率の優先化、LLM-LRM構成のハイブリッド化、LRMをリフレクタとしてアクターと組み合わせること、実行速度と推論深度をブレンドすることによってエージェントのパフォーマンスを最適化すること、LRMの強化による計算コストの増大、処理の延長、事実無視傾向などの行動上の課題に対処する。
本研究は, LRMsの深い思考と過度な思考のバランスを深く探究し, エージェント設計の進歩に重要な基盤を築き上げている。
関連論文リスト
- CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [14.784841713647682]
CoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。
知識グラフ駆動のCoT生成、学習可能な知識ケース対応RAG、擬似プログラム実行などを備えている。
最先端の方法と比較すると、CoT-RAGは4.0%から23.0%の精度で大幅に改善されている。
論文 参考訳(メタデータ) (2025-04-18T07:55:09Z) - Revisiting Prompt Optimization with Large Reasoning Models-A Case Study on Event Extraction [8.88001387249786]
DeepSeek-R1やOpenAI o1のような大きな推論モデル(LRM)は、様々な推論タスクにおいて顕著な能力を示している。
中間的な思考を創造し、推論する強力な能力は、人間の指示を解釈するために、より広範な急進的な工学や最適化をもはや必要としないかもしれないという議論につながった。
本研究では,イベント抽出の構造化課題を事例スタディとして,このオープンな質問を体系的に研究することを目的とする。
論文 参考訳(メタデータ) (2025-04-10T00:53:59Z) - ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。
本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。
我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文 参考訳(メタデータ) (2025-03-27T17:44:18Z) - Can Reasoning Models Reason about Hardware? An Agentic HLS Perspective [18.791753740931185]
OpenAI o3-mini と DeepSeek-R1 は Chain-of-Thought (CoT) を通じて推論を強化している
本稿では, LLM の推論が高レベル合成(HLS)設計空間探索と最適化の課題に対処できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-17T01:21:39Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。