論文の概要: Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities
- arxiv url: http://arxiv.org/abs/2503.11074v1
- Date: Fri, 14 Mar 2025 04:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:38.973768
- Title: Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities
- Title(参考訳): エージェントシナリオにおける大規模推論モデル:推論能力の必要性を探る
- Authors: Xueyang Zhou, Guiyao Tie, Guowen Zhang, Weidong Wang, Zhigang Zuo, Di Wu, Duanfeng Chu, Pan Zhou, Lichao Sun, Neil Zhenqiang Gong,
- Abstract要約: ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
- 参考スコア(独自算出の注目度): 74.35956310688164
- License:
- Abstract: The rise of Large Reasoning Models (LRMs) signifies a paradigm shift toward advanced computational reasoning. Yet, this progress disrupts traditional agent frameworks, traditionally anchored by execution-oriented Large Language Models (LLMs). To explore this transformation, we propose the LaRMA framework, encompassing nine tasks across Tool Usage, Plan Design, and Problem Solving, assessed with three top LLMs (e.g., Claude3.5-sonnet) and five leading LRMs (e.g., DeepSeek-R1). Our findings address four research questions: LRMs surpass LLMs in reasoning-intensive tasks like Plan Design, leveraging iterative reflection for superior outcomes; LLMs excel in execution-driven tasks such as Tool Usage, prioritizing efficiency; hybrid LLM-LRM configurations, pairing LLMs as actors with LRMs as reflectors, optimize agent performance by blending execution speed with reasoning depth; and LRMs' enhanced reasoning incurs higher computational costs, prolonged processing, and behavioral challenges, including overthinking and fact-ignoring tendencies. This study fosters deeper inquiry into LRMs' balance of deep thinking and overthinking, laying a critical foundation for future agent design advancements.
- Abstract(参考訳): LRM(Large Reasoning Models)の台頭は、高度な計算推論へのパラダイムシフトを表している。
しかし、この進歩は従来のエージェントフレームワークを妨害し、伝統的に実行指向のLarge Language Models (LLMs)によって固定される。
この変換を探索するために,ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案し,上位3つのLLM(例: Claude3.5-sonnet)と5つの主要なLRM(例: DeepSeek-R1)を用いて評価した。
LRMは、計画設計や反復的リフレクションの活用、ツールの使用、効率の優先化、LLM-LRM構成のハイブリッド化、LRMをリフレクタとしてアクターと組み合わせること、実行速度と推論深度をブレンドすることによってエージェントのパフォーマンスを最適化すること、LRMの強化による計算コストの増大、処理の延長、事実無視傾向などの行動上の課題に対処する。
本研究は, LRMsの深い思考と過度な思考のバランスを深く探究し, エージェント設計の進歩に重要な基盤を築き上げている。
関連論文リスト
- RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - Game-theoretic LLM: Agent Workflow for Negotiation Games [30.83905391503607]
本稿では,大規模言語モデル(LLM)の戦略的意思決定文脈における合理性について検討する。
LLMの推論と意思決定を導く複数のゲーム理論を設計する。
この発見は、より堅牢で戦略的に健全なAIエージェントの開発に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-08T22:02:22Z) - Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems [17.80128896525717]
後向きの推論は 比較的未調査です
後方推論は 前方推論の「逆」と見なすことができます
性能改善のための3つの異なる前方推論戦略のバリエーションを提案する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。