Fugu-MT 論文翻訳(概要): Policy Guided Tree Search for Enhanced LLM Reasoning

論文の概要: Policy Guided Tree Search for Enhanced LLM Reasoning

arxiv url: http://arxiv.org/abs/2502.06813v1
Date: Tue, 04 Feb 2025 22:08:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:47.701945
Title: Policy Guided Tree Search for Enhanced LLM Reasoning
Title（参考訳）: 拡張LDM推論のためのポリシーガイド木探索
Authors: Yang Li,
Abstract要約: Policy-Guided Tree Search (PGTS)は、強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするフレームワークである。私たちの重要なイノベーションは、手作業や徹底的な検索の必要性をなくし、拡大、分岐、追跡、探索の終了を動的に決定する、学習されたポリシーです。
参考スコア（独自算出の注目度）: 3.090041654375235
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Despite their remarkable capabilities, large language models often struggle with tasks requiring complex reasoning and planning. While existing approaches like Chain-of-Thought prompting and tree search techniques show promise, they are limited by their reliance on predefined heuristics and computationally expensive exploration strategies. We propose Policy-Guided Tree Search (PGTS), a framework that combines reinforcement learning with structured tree exploration to efficiently navigate reasoning paths. Our key innovation is a learned policy that dynamically decides between expanding, branching, backtracking, or terminating exploration, eliminating the need for manual heuristics or exhaustive search. Experiments across mathematical reasoning, logical deduction, and planning benchmarks demonstrate that PGTS achieves superior reasoning performance while significantly reducing computational costs compared to existing methods. These results establish PGTS as a scalable and effective solution for tackling complex reasoning tasks with LLMs.
Abstract（参考訳）: 優れた能力にもかかわらず、大きな言語モデルは複雑な推論と計画を必要とするタスクに苦しむことが多い。 Chain-of-Thoughtのプロンプトやツリー検索といった既存のアプローチは有望であるが、事前に定義されたヒューリスティックと計算に高価な探索戦略に依存しているため制限されている。本稿では,強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするPGTSを提案する。私たちの重要なイノベーションは、手動のヒューリスティックや徹底的な検索の必要性を排除し、拡大、分岐、追跡、探索の終了を動的に決定する学習されたポリシーです。数学的推論、論理的推論、計画ベンチマークによる実験により、PGTSは既存の手法に比べて計算コストを大幅に削減しつつ、優れた推論性能を達成することが示された。これらの結果は、複雑な推論タスクをLLMで処理するためのスケーラブルで効果的なソリューションとしてPGTSを確立している。

関連論文リスト

TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文参考訳（メタデータ） (2026-01-11T14:07:30Z)
Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文参考訳（メタデータ） (2026-01-08T15:56:44Z)
MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information [32.43291637979958]
情報理論の原理で推論を導く新しいフレームワークであるMutual Information Tree Search (MITS)を提案する。 MITSは、ポイントワイド相互情報(PMI)に基づく効果的なスコアリング機能を導入し、推論経路の段階的評価と探索木拡張を可能にする。最終的な予測のために、MITSはPMIスコアと予測コンセンサスを組み合わせた重み付き投票方式を採用している。
論文参考訳（メタデータ） (2025-10-04T02:30:40Z)
TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2025-06-12T05:25:35Z)
ToTRL: Unlock LLM Tree-of-Thoughts Reasoning Potential through Puzzles Solving [4.987786842464663]
Tree-of-Thoughts (ToT) は、ツリー構造内の探索として推論をモデル化することによって、概念的により高度なアプローチを提供する。 ToTRLは、逐次CoT戦略に基づく並列ToT戦略の開発においてLLMを導くように設計されている。 ToTQwen3-8Bモデルは,複雑な推論タスクの性能向上と推論効率の向上を実現している。
論文参考訳（メタデータ） (2025-05-19T05:18:58Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures [0.0]
本稿では,動的グラフベースの推論フレームワークであるAdaptive Graph of Thoughts (AGoT)を紹介する。 AGoTはテスト時間のみでのLarge Language Models (LLM)推論を強化する。マルチホップ検索,科学的推論,数学的問題解決にまたがる多様なベンチマークに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-02-07T16:54:19Z)
Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。 FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。本稿では,リアルタイムの誤り訂正を可能にする動的自己補正戦略と,コンセンサス誘導による意思決定戦略を導入する。
論文参考訳（メタデータ） (2024-12-12T09:01:18Z)
Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。 GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文参考訳（メタデータ） (2024-06-29T05:14:04Z)
What Matters in Hierarchical Search for Combinatorial Reasoning Problems? [0.5007502976837217]
近年の取り組みでは,階層的な高次探索戦略を取り入れたサブゴアル手法による計画の強化が試みられている。有望ではあるが、従来の低レベルのプランナに対する彼らのパフォーマンスは一貫性がなく、アプリケーションコンテキストに関する疑問を提起している。難解な値関数、複雑なアクション空間、環境におけるデッドエンドの存在、あるいは多様な専門家から収集されたデータなど、ハイレベル検索の利点を活用する上で重要な属性を同定する。
論文参考訳（メタデータ） (2024-06-05T15:14:58Z)
Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文参考訳（メタデータ） (2024-02-01T15:18:33Z)
PathFinder: Guided Search over Multi-Step Reasoning Paths [80.56102301441899]
木探索に基づく推論経路生成手法であるPathFinderを提案する。動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
論文参考訳（メタデータ） (2023-12-08T17:05:47Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。