Fugu-MT 論文翻訳(概要): LLM-First Search: Self-Guided Exploration of the Solution Space

論文の概要: LLM-First Search: Self-Guided Exploration of the Solution Space

arxiv url: http://arxiv.org/abs/2506.05213v1
Date: Thu, 05 Jun 2025 16:27:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.821241
Title: LLM-First Search: Self-Guided Exploration of the Solution Space
Title（参考訳）: LLM-First Search: 自己ガイドによる解空間探索
Authors: Nathan Herr, Tim Rocktäschel, Roberta Raileanu,
Abstract要約: 大規模言語モデル(LLM)は、テスト時間計算の増加による推論と計画の大幅な改善を示している。我々は,新しいTextitLLM Self-Guided Search法である textbfLLM-First Search (LFS) を提案する。
参考スコア（独自算出の注目度）: 29.780554400938335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable improvements in reasoning and planning through increased test-time compute, often by framing problem-solving as a search process. While methods like Monte Carlo Tree Search (MCTS) have proven effective in some domains, their reliance on fixed exploration hyperparameters limits their adaptability across tasks of varying difficulty, rendering them impractical or expensive in certain settings. In this paper, we propose \textbf{LLM-First Search (LFS)}, a novel \textit{LLM Self-Guided Search} method that removes the need for pre-defined search strategies by empowering the LLM to autonomously control the search process via self-guided exploration. Rather than relying on external heuristics or hardcoded policies, the LLM evaluates whether to pursue the current search path or explore alternative branches based on its internal scoring mechanisms. This enables more flexible and context-sensitive reasoning without requiring manual tuning or task-specific adaptation. We evaluate LFS on Countdown and Sudoku against three classic widely-used search algorithms, Tree-of-Thoughts' Breadth First Search (ToT-BFS), Best First Search (BestFS), and MCTS, each of which have been used to achieve SotA results on a range of challenging reasoning tasks. We found that LFS (1) performs better on more challenging tasks without additional tuning, (2) is more computationally efficient compared to the other methods, especially when powered by a stronger model, (3) scales better with stronger models, due to its LLM-First design, and (4) scales better with increased compute budget. Our code is publicly available at \href{https://github.com/NathanHerr/LLM-First-Search}{LLM-First-Search}.
Abstract（参考訳）: 大規模言語モデル (LLM) は、多くの場合、探索プロセスとして問題解決をフレーミングすることによって、テスト時間計算の増大による推論と計画の大幅な改善を実証している。モンテカルロ木探索(MCTS)のような手法はいくつかの領域で有効であることが証明されているが、固定探索ハイパーパラメータに依存しているため、様々な困難を伴うタスクへの適応性が制限され、特定の環境では非現実的あるいは高価なものとなる。本稿では, LLM による自己誘導探索による検索プロセスの自律的制御により, 事前定義された検索戦略の必要性を解消する新規な検索手法である \textbf{LLM-First Search (LFS) を提案する。 LLMは、外部ヒューリスティックやハードコードポリシーに頼るのではなく、現在の探索パスを追求するか、内部のスコアリング機構に基づいて代替ブランチを探索するかを評価する。これにより、手動チューニングやタスク固有の適応を必要とせずに、より柔軟でコンテキストに敏感な推論が可能になる。我々は,3つの古典的広義検索アルゴリズムであるTree-of-Thoughts' Breadth First Search (ToT-BFS), Best First Search (BestFS), MCTS に対して,Countdown と Sudoku の LFS を評価する。その結果, LFS (1) は付加的なチューニングを伴わず, (2) は他の手法に比べて計算効率が良く, (3) LLM-First の設計上, (4) 計算予算の増大によりスケールが良くなることがわかった。私たちのコードは、 \href{https://github.com/NathanHerr/LLM-First-Search}{LLM-First-Search}で公開されています。

関連論文リスト

MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:59:42Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文参考訳（メタデータ） (2025-05-07T17:30:22Z)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文参考訳（メタデータ） (2025-03-12T16:26:39Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving [19.55767322738915]
スケーラブルなエキスパートフレームワークであるBFS-Proverを紹介します。 BFS-Proverは、MiniF2Fテストセットで72.95%の最先端スコアを達成している。
論文参考訳（メタデータ） (2025-02-05T18:33:36Z)
A Training Data Recipe to Accelerate A* Search with Language Models [3.037409201025504]
A*のような検索アルゴリズムを備えた大規模言語モデル(LLM)は、拡張された推論とスケーラブルな推論の約束を持っている。我々は,A*探索アルゴリズムの要件を LLM の要件から実験的に切り離して,この課題を一般化する。提案手法は,解を見つけるのに要する反復回数を最大15倍に削減し,壁面通過速度を最大5倍に向上させる。
論文参考訳（メタデータ） (2024-07-13T19:21:44Z)
Uncertainty-Guided Optimization on Large Language Model Search Trees [42.71167208999792]
大規模言語モデル(LLM)の復号過程における最大可能性列の探索においては,greedy や beam search などの木探索アルゴリズムが標準となっている。 LLMの遷移確率に関する事前の信念を定義し、各反復において最も有望な経路についての後続の信念を得る。モンテカルロ木探索のような高価なシミュレーションに基づく非光学的手法とは異なり、我々の手法は信念からのサンプルのみを必要とする。
論文参考訳（メタデータ） (2024-07-04T14:08:50Z)
Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文参考訳（メタデータ） (2023-10-14T14:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。