論文の概要: SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition
- arxiv url: http://arxiv.org/abs/2506.07557v1
- Date: Mon, 09 Jun 2025 08:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.874128
- Title: SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition
- Title(参考訳): SELT:タスク分解によるLCMの自己評価木探索
- Authors: Mengsong Wu, Di Zhang, Yuqiang Li, Dongzhan Zhou, Wenliang Chen,
- Abstract要約: 外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。
知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 5.5688696788198975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have achieved remarkable success in a wide range of applications, their performance often degrades in complex reasoning tasks. In this work, we introduce SELT (Self-Evaluation LLM Tree Search), a novel framework that leverages a modified Monte Carlo Tree Search (MCTS) to enhance LLM reasoning without relying on external reward models. By redefining the Upper Confidence Bound scoring to align with intrinsic self-evaluation capabilities of LLMs and decomposing the inference process into atomic subtasks augmented with semantic clustering at each node, SELT effectively balances exploration and exploitation, reduces redundant reasoning paths, and mitigates hallucination. We validate our approach on challenging benchmarks, including the knowledge-based MMLU and the Tool Learning dataset Seal-Tools, where SELT achieves significant improvements in answer accuracy and reasoning robustness compared to baseline methods. Notably, our framework operates without task-specific fine-tuning, demonstrating strong generalizability across diverse reasoning tasks. Relevant results and code are available at https://github.com/fairyshine/SELT .
- Abstract(参考訳): 大規模言語モデル(LLM)は幅広いアプリケーションで顕著な成功を収めているが、複雑な推論タスクでは性能が劣化することが多い。
本研究では,モンテカルロ木探索(MCTS)を改良した新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を導入する。
各ノードでのセマンティッククラスタリングで強化されたアトミックサブタスクに推論プロセスを分解することで、アッパー信頼境界スコアを再定義することにより、探索とエクスプロイトのバランスを効果的に保ち、冗長な推論パスを減少させ、幻覚を緩和する。
我々は,知識ベースMMLUやツールラーニングデータセットSeal-Toolsなど,難解なベンチマークに対するアプローチを検証する。
特に,本フレームワークはタスク固有の微調整なしで動作し,多種多様な推論タスクにまたがる強力な一般化性を示す。
関連する結果とコードはhttps://github.com/fairyshine/SELT で公開されている。
関連論文リスト
- DEEPQUESTION: Systematic Generation of Real-World Challenges for Evaluating LLMs Performance [3.9770095824794516]
私たちは、Bloomの分類に基づいて既存のデータセットを拡張するスケーラブルな自動化フレームワークであるDeepQuestionを紹介します。
我々は,高次タスクにおいて高い性能低下(最大70%の精度低下)を示し,深い推論において持続的なギャップを減らした。
論文 参考訳(メタデータ) (2025-05-30T12:39:42Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。