論文の概要: Reasoning Strategies in Large Language Models: Can They Follow, Prefer, and Optimize?
- arxiv url: http://arxiv.org/abs/2507.11423v2
- Date: Wed, 16 Jul 2025 13:02:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 12:30:11.794651
- Title: Reasoning Strategies in Large Language Models: Can They Follow, Prefer, and Optimize?
- Title(参考訳): 大規模言語モデルにおける推論戦略: 追跡、優先、最適化は可能か?
- Authors: Yanjian Zhang, Guillaume Wisniewski, Nadi Tomeh, Thierry Charnois,
- Abstract要約: 大規模言語モデル(LLM)は単一の推論戦略を好んでおり、様々な推論課題においてその有効性を制限している可能性がある。
本稿では, LLMの推論戦略を制御し, 論理的問題解決への影響を評価できるかどうかを考察する。
- 参考スコア(独自算出の注目度): 5.589792999813676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human reasoning involves different strategies, each suited to specific problems. Prior work shows that large language model (LLMs) tend to favor a single reasoning strategy, potentially limiting their effectiveness in diverse reasoning challenges. In this work, we investigate whether prompting can control LLMs reasoning strategies and assess its impact on logical problem-solving. While our experiments show that no single strategy consistently improves accuracy, performance could be enhanced if models could adaptively choose the optimal strategy. We propose methods to guide LLMs in strategy selection, highlighting new ways to refine their reasoning abilities.
- Abstract(参考訳): 人間の推論には異なる戦略があり、それぞれが特定の問題に適合する。
以前の研究は、大きな言語モデル(LLM)が単一の推論戦略を好んでおり、様々な推論課題においてその効果を制限していることを示している。
本研究では, LLMの推論戦略を制御し, 論理的問題解決への影響を評価できるかどうかを検討する。
実験の結果, 一つの戦略が常に精度を向上することは得られなかったが, モデルが最適戦略を適応的に選択できれば, 性能が向上する可能性が示唆された。
戦略選択において LLM を誘導する手法を提案する。
関連論文リスト
- On the Adaptive Psychological Persuasion of Large Language Models [37.18479986426215]
我々は,Large Language Models (LLMs) が自律的に説得し,説得に抵抗できることを示した。
総合的な心理的説得戦略を11つ導入する。
最適戦略を自律的に選択するようにLLMを訓練する適応型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-07T13:52:50Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
我々は,マルチターン強化学習(RL)による戦略的推論モデルを訓練し,プロセス報酬と反復的な自己プレイを活用する。
本研究は, EPOに出現する様々な協調的推論機構と, 新規戦略の創出における有効性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - SIKeD: Self-guided Iterative Knowledge Distillation for mathematical reasoning [49.29200323760457]
大きな言語モデル(LLM)は、推論スキルをより小さなモデルに転送することができる。
より小さなモデルは蒸留時に全ての戦略にLLM分布を適合させるほど表現力に乏しい。
この1つの戦略への依存は、より小さなモデルにおいて、望ましい戦略で困難な推論タスクを解決しようとするときに、課題となる。
論文 参考訳(メタデータ) (2024-10-24T09:29:18Z) - SMART: Self-learning Meta-strategy Agent for Reasoning Tasks [44.45037694899524]
SMART(Self-learning Meta-Strategy Agent for Reasoning Tasks)は、LMが様々な推論タスクの最も効果的な戦略を学習し、選択できる新しいフレームワークである。
我々は、戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的自己改善を活用する。
実験の結果,SMARTは外部ガイダンスを使わずに最適な戦略を選択する能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-21T15:55:04Z) - DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search [37.16633337724158]
DOTS は LLM が最適推論軌道探索によって動的に推論できるアプローチである。
提案手法は静的推論手法とバニラ命令チューニング手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-10-04T18:58:09Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z) - Strategic Reasoning with Language Models [35.63300060111918]
戦略的推論は、エージェントが様々な状況において他のエージェントと協力し、コミュニケーションし、競合することを可能にする。
既存の戦略ゲームに対するアプローチは、広範なトレーニングに依存しており、再訓練なしに新しいシナリオやゲームに一般化しない戦略を生み出している。
本稿では,AIエージェントの戦略的推論を可能にするために,事前訓練された大規模言語モデルと数発の連鎖例を用いたアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-30T16:09:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。