論文の概要: Uncertainty-Guided Optimization on Large Language Model Search Trees
- arxiv url: http://arxiv.org/abs/2407.03951v1
- Date: Thu, 4 Jul 2024 14:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 17:43:28.639292
- Title: Uncertainty-Guided Optimization on Large Language Model Search Trees
- Title(参考訳): 大規模言語モデル探索木における不確かさ誘導最適化
- Authors: Julia Grosse, Ruotian Wu, Ahmad Rashid, Philipp Hennig, Pascal Poupart, Agustinus Kristiadi,
- Abstract要約: ビームサーチ(ビームサーチ)は、最大確率の列を見つけるための標準的な木探索アルゴリズムである。
よりデータ効率のよい探索手法を実現するために,非ミオピー的ベイズ最適化型取得関数を提案する。
本手法は,ビームサーチよりも少ないノードを拡張しながら,同じあるいは高い可能性を達成する。
- 参考スコア(独自算出の注目度): 42.71167208999792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Beam search is a standard tree search algorithm when it comes to finding sequences of maximum likelihood, for example, in the decoding processes of large language models. However, it is myopic since it does not take the whole path from the root to a leaf into account. Moreover, it is agnostic to prior knowledge available about the process: For example, it does not consider that the objective being maximized is a likelihood and thereby has specific properties, like being bound in the unit interval. Taking a probabilistic approach, we define a prior belief over the LLMs' transition probabilities and obtain a posterior belief over the most promising paths in each iteration. These beliefs are helpful to define a non-myopic Bayesian-optimization-like acquisition function that allows for a more data-efficient exploration scheme than standard beam search. We discuss how to select the prior and demonstrate in on- and off-model experiments with recent large language models, including Llama-2-7b, that our method achieves higher efficiency than beam search: Our method achieves the same or a higher likelihood while expanding fewer nodes than beam search.
- Abstract(参考訳): ビームサーチ(ビームサーチ)は、例えば大規模言語モデルの復号過程において、最大可能性の列を見つけるための標準的な木探索アルゴリズムである。
ただし、根元から葉までの全経路を考慮に入れないため、名勝である。
さらに、プロセスに関する事前の知識は無知である:例えば、最大化される目的は可能性であり、したがって単位区間に縛られるような特定の性質を持つとは考えていない。
確率論的アプローチを用いて、LLMの遷移確率に関する事前の信念を定義し、各反復において最も有望な経路についての後続の信念を得る。
これらの信念は、標準的なビーム探索よりも、よりデータ効率の高い探索スキームを可能にする、非神秘的ベイズ最適化のような取得関数を定義するのに役立つ。
Llama-2-7bを含む最近の大規模言語モデルを用いた事前およびオフモデル実験において,本手法はビームサーチよりも高い効率を達成できることを示す。
関連論文リスト
- Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Latent Logic Tree Extraction for Event Sequence Explanation from LLMs [19.90330712436838]
医療やロボティクスなどの現代のハイテイクシステムは、しばしば巨大なストリーミングイベントシーケンスを生成する。
我々のゴールは、Large Language Models (LLMs) から論理木に基づく説明を引き出すための効率的なプラグイン・アンド・プレイツールを設計し、観測された各イベントシーケンスに対するカスタマイズされた洞察を提供することです。
オンライン設定では、ローカルに構築された軽量なモデルが、数回だけ繰り返して、各シーケンスのLSMから最も関連性の高いルールを反復的に抽出します。
論文 参考訳(メタデータ) (2024-06-03T09:10:42Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-29T12:20:19Z) - Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models [17.059322033670124]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。
この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-20T22:36:23Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。