Fugu-MT 論文翻訳(概要): SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition

論文の概要: SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition

arxiv url: http://arxiv.org/abs/2506.07557v1
Date: Mon, 09 Jun 2025 08:52:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.874128
Title: SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition
Title（参考訳）: SELT:タスク分解によるLCMの自己評価木探索
Authors: Mengsong Wu, Di Zhang, Yuqiang Li, Dongzhan Zhou, Wenliang Chen,
Abstract要約: 外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
参考スコア（独自算出の注目度）: 5.5688696788198975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Large Language Models (LLMs) have achieved remarkable success in a wide range of applications, their performance often degrades in complex reasoning tasks. In this work, we introduce SELT (Self-Evaluation LLM Tree Search), a novel framework that leverages a modified Monte Carlo Tree Search (MCTS) to enhance LLM reasoning without relying on external reward models. By redefining the Upper Confidence Bound scoring to align with intrinsic self-evaluation capabilities of LLMs and decomposing the inference process into atomic subtasks augmented with semantic clustering at each node, SELT effectively balances exploration and exploitation, reduces redundant reasoning paths, and mitigates hallucination. We validate our approach on challenging benchmarks, including the knowledge-based MMLU and the Tool Learning dataset Seal-Tools, where SELT achieves significant improvements in answer accuracy and reasoning robustness compared to baseline methods. Notably, our framework operates without task-specific fine-tuning, demonstrating strong generalizability across diverse reasoning tasks. Relevant results and code are available at https://github.com/fairyshine/SELT .
Abstract（参考訳）: 大規模言語モデル(LLM)は幅広いアプリケーションで顕著な成功を収めているが、複雑な推論タスクでは性能が劣化することが多い。本研究では,モンテカルロ木探索(MCTS)を改良した新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を導入する。各ノードでのセマンティッククラスタリングで強化されたアトミックサブタスクに推論プロセスを分解することで、アッパー信頼境界スコアを再定義することにより、探索とエクスプロイトのバランスを効果的に保ち、冗長な推論パスを減少させ、幻覚を緩和する。我々は,知識ベースMMLUやツールラーニングデータセットSeal-Toolsなど,難解なベンチマークに対するアプローチを検証する。特に,本フレームワークはタスク固有の微調整なしで動作し,多種多様な推論タスクにまたがる強力な一般化性を示す。関連する結果とコードはhttps://github.com/fairyshine/SELT で公開されている。

関連論文リスト

A Comparative Study of Specialized LLMs as Dense Retrievers [29.504113759761527]
本研究では,大規模言語モデル(LLM)におけるタスク固有適応が検索能力にどのように影響するかを系統的に検討する。我々は,Qwen2.5 7B LLMをベース,命令調整,コード/マス特化,長い推論,視覚言語モデルを含む8つの実験を行った。数学的特殊化と長い推論能力は、3つの設定で一貫した劣化を引き起こし、数学的推論とセマンティックマッチングの矛盾を示す。
論文参考訳（メタデータ） (2025-07-05T08:50:29Z)
DEEPQUESTION: Systematic Generation of Real-World Challenges for Evaluating LLMs Performance [3.9770095824794516]
私たちは、Bloomの分類に基づいて既存のデータセットを拡張するスケーラブルな自動化フレームワークであるDeepQuestionを紹介します。我々は,高次タスクにおいて高い性能低下(最大70%の精度低下)を示し,深い推論において持続的なギャップを減らした。
論文参考訳（メタデータ） (2025-05-30T12:39:42Z)
Rethinking the Unsolvable: When In-Context Search Meets Test-Time Scaling [1.219841051166348]
本稿では,テキスト内検索とテスト時間スケーリングの併用の可能性について検討する。内部スケーリングを付加したLLMに高度なコンテキスト内探索プロンプトを付加することにより、変換性能のブレークスルーを実現することができる。
論文参考訳（メタデータ） (2025-05-28T12:28:18Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。