Fugu-MT 論文翻訳(概要): Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities

論文の概要: Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities

arxiv url: http://arxiv.org/abs/2503.11074v1
Date: Fri, 14 Mar 2025 04:34:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.170398
Title: Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities
Title（参考訳）: エージェントシナリオにおける大規模推論モデル:推論能力の必要性を探る
Authors: Xueyang Zhou, Guiyao Tie, Guowen Zhang, Weidong Wang, Zhigang Zuo, Di Wu, Duanfeng Chu, Pan Zhou, Lichao Sun, Neil Zhenqiang Gong,
Abstract要約: ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。 LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。 LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
参考スコア（独自算出の注目度）: 74.35956310688164
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rise of Large Reasoning Models (LRMs) signifies a paradigm shift toward advanced computational reasoning. Yet, this progress disrupts traditional agent frameworks, traditionally anchored by execution-oriented Large Language Models (LLMs). To explore this transformation, we propose the LaRMA framework, encompassing nine tasks across Tool Usage, Plan Design, and Problem Solving, assessed with three top LLMs (e.g., Claude3.5-sonnet) and five leading LRMs (e.g., DeepSeek-R1). Our findings address four research questions: LRMs surpass LLMs in reasoning-intensive tasks like Plan Design, leveraging iterative reflection for superior outcomes; LLMs excel in execution-driven tasks such as Tool Usage, prioritizing efficiency; hybrid LLM-LRM configurations, pairing LLMs as actors with LRMs as reflectors, optimize agent performance by blending execution speed with reasoning depth; and LRMs' enhanced reasoning incurs higher computational costs, prolonged processing, and behavioral challenges, including overthinking and fact-ignoring tendencies. This study fosters deeper inquiry into LRMs' balance of deep thinking and overthinking, laying a critical foundation for future agent design advancements.
Abstract（参考訳）: LRM(Large Reasoning Models)の台頭は、高度な計算推論へのパラダイムシフトを表している。しかし、この進歩は従来のエージェントフレームワークを妨害し、伝統的に実行指向のLarge Language Models (LLMs)によって固定される。この変換を探索するために,ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案し,上位3つのLLM(例: Claude3.5-sonnet)と5つの主要なLRM(例: DeepSeek-R1)を用いて評価した。 LRMは、計画設計や反復的リフレクションの活用、ツールの使用、効率の優先化、LLM-LRM構成のハイブリッド化、LRMをリフレクタとしてアクターと組み合わせること、実行速度と推論深度をブレンドすることによってエージェントのパフォーマンスを最適化すること、LRMの強化による計算コストの増大、処理の延長、事実無視傾向などの行動上の課題に対処する。本研究は, LRMsの深い思考と過度な思考のバランスを深く探究し, エージェント設計の進歩に重要な基盤を築き上げている。

関連論文リスト

Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文参考訳（メタデータ） (2025-10-27T17:58:02Z)
MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文参考訳（メタデータ） (2025-10-09T17:53:58Z)
LogReasoner: Empowering LLMs with Expert-like Coarse-to-Fine Reasoning for Automated Log Analysis [66.79746720402811]
汎用大規模言語モデル(LLM)は、専門家の認識と整合した構造化推論を定式化し、推論ステップの正確な詳細を提供するのに苦労する。我々は,LLMが専門家のようなログ解析タスクを推論できるように設計された粗粒度拡張フレームワークであるLogReasonerを提案する。我々は,Qwen-2.5 や Llama-3 といったオープンソースの LLM を用いて,ログ解析の4つのタスクについてLogReasoner の評価を行った。
論文参考訳（メタデータ） (2025-09-25T06:26:49Z)
Thinking Isn't an Illusion: Overcoming the Limitations of Reasoning Models via Tool Augmentations [11.503915439591735]
大きな推論モデル(LRM)は、複雑な推論タスクを扱う最終回答に到達する前にステップバイステップの思考プロセスを出力するように設計されている。最近の実証研究は、明示的な推論のないLLMが、低または高複雑性のタスクにおいて実際にLRMよりも優れていることを示唆している。ツール拡張の際, LRMの限界が持続するかどうかを検討する。
論文参考訳（メタデータ） (2025-07-23T17:04:20Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation [21.89080753903469]
パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
論文参考訳（メタデータ） (2025-05-23T07:30:13Z)
Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges [4.668749313973097]
本稿では,Large Language Models (LLMs) とLarge Reasoning Models (LRMs) を3段階の推論複雑性で体系的に評価する。モデルが直接、あるいはPython Code Interpreterによって応答する26の課題をキュレートします。 LRMは、様々な難易度を持つタスク間で堅牢なパフォーマンスを示し、しばしば従来の第一原理に基づく手法と競合する。
論文参考訳（メタデータ） (2025-05-16T18:32:35Z)
CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [14.784841713647682]
CoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。知識グラフ駆動のCoT生成、学習可能な知識ケース対応RAG、擬似プログラム実行などを備えている。最先端の方法と比較すると、CoT-RAGは4.0%から23.0%の精度で大幅に改善されている。
論文参考訳（メタデータ） (2025-04-18T07:55:09Z)
Revisiting Prompt Optimization with Large Reasoning Models-A Case Study on Event Extraction [8.88001387249786]
DeepSeek-R1やOpenAI o1のような大きな推論モデル(LRM)は、様々な推論タスクにおいて顕著な能力を示している。中間的な思考を創造し、推論する強力な能力は、人間の指示を解釈するために、より広範な急進的な工学や最適化をもはや必要としないかもしれないという議論につながった。本研究では,イベント抽出の構造化課題を事例スタディとして,このオープンな質問を体系的に研究することを目的とする。
論文参考訳（メタデータ） (2025-04-10T00:53:59Z)
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文参考訳（メタデータ） (2025-03-27T17:44:18Z)
Can Reasoning Models Reason about Hardware? An Agentic HLS Perspective [18.791753740931185]
OpenAI o3-mini と DeepSeek-R1 は Chain-of-Thought (CoT) を通じて推論を強化している本稿では, LLM の推論が高レベル合成(HLS)設計空間探索と最適化の課題に対処できるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-17T01:21:39Z)
OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problems with Reasoning LLM [15.260794368585692]
自動オペレーションリサーチ問題解決のためのLLMを推論するAIエージェントフレームワークであるOR-LLM-Agentを提案する。 GPT-o3, Gemini 2.5 Pro, DeepSeek-R1, ORLMなどの高度な手法よりも, OR-LLM-Agentの精度を7%以上向上させることを示す。
論文参考訳（メタデータ） (2025-03-13T03:40:50Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。 LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。 LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文参考訳（メタデータ） (2024-05-05T00:21:26Z)
DRDT: Dynamic Reflection with Divergent Thinking for LLM-based Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。 6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文参考訳（メタデータ） (2023-12-18T16:41:22Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。