論文の概要: Reasoning LLMs are Wandering Solution Explorers
- arxiv url: http://arxiv.org/abs/2505.20296v1
- Date: Mon, 26 May 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.460784
- Title: Reasoning LLMs are Wandering Solution Explorers
- Title(参考訳): LLMの推論はソリューションエクスプローラーを悩ませる
- Authors: Jiahao Lu, Ziwei Xu, Mohan Kankanhalli,
- Abstract要約: 本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。
以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
- 参考スコア(独自算出の注目度): 5.3795217858078805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive reasoning abilities through test-time computation (TTC) techniques such as chain-of-thought prompting and tree-based reasoning. However, we argue that current reasoning LLMs (RLLMs) lack the ability to systematically explore the solution space. This paper formalizes what constitutes systematic problem solving and identifies common failure modes that reveal reasoning LLMs to be wanderers rather than systematic explorers. Through qualitative and quantitative analysis across multiple state-of-the-art LLMs, we uncover persistent issues: invalid reasoning steps, redundant explorations, hallucinated or unfaithful conclusions, and so on. Our findings suggest that current models' performance can appear to be competent on simple tasks yet degrade sharply as complexity increases. Based on the findings, we advocate for new metrics and tools that evaluate not just final outputs but the structure of the reasoning process itself.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チェーン・オブ・ソート・プロンプトやツリーベースの推論といったテスト時間計算(TTC)技術を通じて、印象的な推論能力を示した。
しかし、現在の推論 LLM (RLLMs) には、解空間を体系的に探索する能力がないと論じる。
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。
複数の最先端のLCMの質的および定量的分析を通じて、無効な推論ステップ、冗長な探索、幻覚的あるいは不誠実な結論など、永続的な問題を明らかにする。
以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
本研究は,最終結果だけでなく,推論プロセス自体の構造も評価する新たな指標とツールを提案する。
関連論文リスト
- RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。
複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。
本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。