論文の概要: Uncertainty-Guided Likelihood Tree Search
- arxiv url: http://arxiv.org/abs/2407.03951v3
- Date: Thu, 04 Sep 2025 12:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.863493
- Title: Uncertainty-Guided Likelihood Tree Search
- Title(参考訳): 不確実性誘導様木探索
- Authors: Julia Grosse, Ruotian Wu, Ahmad Rashid, Cheng Zhang, Philipp Hennig, Pascal Poupart, Agustinus Kristiadi,
- Abstract要約: ツリー探索は、木構造空間を探索するものとして、多くのシーケンシャルな意思決定問題を列挙できるため、計画のための基本的なツールである。
本研究では、報酬関数が経路のログ様関数であるような設定のための不確実性誘導木探索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 37.25859935454988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tree search is a fundamental tool for planning, as many sequential decision-making problems can be framed as searching over tree-structured spaces. We propose an uncertainty-guided tree search algorithm for settings where the reward function is a log-likelihood function of the paths. Due to the combinatorial explosion of the tree size, the set of paths for which one can obtain rewards is sparse, particularly when the likelihood is obtained through expensive evaluations, such as by querying a large language model. We address this challenge by deriving an probabilistic search heuristic based on regularity assumptions for the likelihood. Unlike existing tree search methods, the proposed method can perform backtracking and trade-off exploration with exploitation, and yet does not require expensive roll-outs, or sophisticated Bayesian inference. Through extensive on-model and off-model experiments on timely, large-scale practical applications, we demonstrate that our method identifies paths with high likelihood while requiring fewer costly evaluations.
- Abstract(参考訳): ツリー探索は、木構造空間を探索するものとして、多くのシーケンシャルな意思決定問題を列挙できるため、計画のための基本的なツールである。
本研究では、報酬関数が経路のログ様関数であるような設定のための不確実性誘導木探索アルゴリズムを提案する。
木の大きさが組み合わさって爆発するので、特に大きな言語モデルに問い合わせるなど、高価な評価によってその可能性が得られる場合、報酬を得ることができる経路の集合は希薄である。
この課題に対して,確率論的探索ヒューリスティック(probabilistic search heuristic, 確率的探索ヒューリスティック, 確率的正則性仮定に基づく探索ヒューリスティック)を導出する。
既存の木探索法と異なり,提案手法は悪用によるバックトラックやトレードオフ探索を行うことができるが,高価なロールアウトや洗練されたベイズ推定は必要としない。
提案手法は,大規模かつタイムリーな実運用における大規模オンモデルおよびオフモデル実験を通じて,コスト評価の少ないパスを高い確率で同定できることを実証する。
関連論文リスト
- LLM-First Search: Self-Guided Exploration of the Solution Space [29.780554400938335]
大規模言語モデル(LLM)は、テスト時間計算の増加による推論と計画の大幅な改善を示している。
我々は,新しいTextitLLM Self-Guided Search法である textbfLLM-First Search (LFS) を提案する。
論文 参考訳(メタデータ) (2025-06-05T16:27:49Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models [0.36326779753373206]
勾配の代わりに関数評価を用いたゼロ次最適化(ZO)は、メモリ使用量を減らすが、高次元モデルでは緩やかな収束に悩まされる。
LLMの優先度最適化のために設計された新しいZOアルゴリズムZOPrOを紹介する。
本手法は,一階法に匹敵する収束時間を実現しつつ,報酬信号の連続的な向上を実証する。
論文 参考訳(メタデータ) (2025-03-05T12:49:48Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Latent Logic Tree Extraction for Event Sequence Explanation from LLMs [19.90330712436838]
医療やロボティクスなどの現代のハイテイクシステムは、しばしば巨大なストリーミングイベントシーケンスを生成する。
我々のゴールは、Large Language Models (LLMs) から論理木に基づく説明を引き出すための効率的なプラグイン・アンド・プレイツールを設計し、観測された各イベントシーケンスに対するカスタマイズされた洞察を提供することです。
オンライン設定では、ローカルに構築された軽量なモデルが、数回だけ繰り返して、各シーケンスのLSMから最も関連性の高いルールを反復的に抽出します。
論文 参考訳(メタデータ) (2024-06-03T09:10:42Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-29T12:20:19Z) - Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models [17.059322033670124]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。
この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-20T22:36:23Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。