論文の概要: Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training
- arxiv url: http://arxiv.org/abs/2309.17179v2
- Date: Fri, 9 Feb 2024 00:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:33:19.421665
- Title: Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training
- Title(参考訳): alphazeroライクなツリー検索は、大きな言語モデルのデコードとトレーニングをガイドする
- Authors: Xidong Feng, Ziyu Wan, Muning Wen, Stephen Marcus McAleer, Ying Wen,
Weinan Zhang, Jun Wang
- Abstract要約: ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
- 参考スコア(独自算出の注目度): 37.79247073276239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent works like Tree-of-Thought (ToT) and Reasoning via Planning (RAP) aim
to augment the reasoning capabilities of LLMs by using tree-search algorithms
to guide multi-step reasoning. These methods rely on prompting a pre-trained
model to serve as a value function and focus on problems with low search depth.
As a result, these methods will not work in domains where the pre-trained LLM
does not have enough knowledge to serve as an effective value function or in
domains that require long-horizon planning. To address these limitations, we
present an AlphaZero-like tree-search learning framework for LLMs (termed
TS-LLM), systematically illustrating how tree-search with a learned value
function can guide LLM decoding. TS-LLM distinguishes itself in two key ways.
(1) Leveraging a learned value function and AlphaZero-like algorithms, our
approach can be generally adaptable to a wide range of tasks, language models
of any size, and tasks of varying search depths. (2) Our approach can guide
LLMs during both inference and training, iteratively improving the LLM.
Empirical results across reasoning, planning, alignment, and decision-making
tasks show that TS-LLM outperforms existing approaches and can handle trees
with a depth of 64.
- Abstract(参考訳): tree-of-thought (tot) や reasoning via planning (rap) といった最近の研究は、木探索アルゴリズムを用いて多段階推論を導くことで、llmの推論能力を高めることを目的としている。
これらの手法は、事前学習されたモデルに値関数として機能するよう促し、検索深さの低い問題に焦点を当てる。
その結果、事前訓練されたllmが有効な値関数として機能するのに十分な知識を持たない領域や、長い水平計画を必要とする領域では、これらの手法は機能しない。
これらの制約に対処するために、学習値関数を用いた木探索がLLM復号を導出する方法を体系的に示す、LSMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
ts-llmは2つの主要な違いがある。
1)学習値関数とalphazeroライクなアルゴリズムを利用することで,幅広いタスク,任意の大きさの言語モデル,検索深度の異なるタスクに適用することができる。
2) 提案手法は, 推論とトレーニングの両方においてLLMを誘導し, 反復的にLLMを改善する。
推論、計画、アライメント、意思決定タスクの実証的な結果から、TS-LLMは既存のアプローチよりも優れ、深さ64のツリーを処理可能であることが分かる。
関連論文リスト
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - Tree-of-Traversals: A Zero-Shot Reasoning Algorithm for Augmenting Black-box Language Models with Knowledge Graphs [72.89652710634051]
知識グラフ(KG)は、信頼性があり、構造化され、ドメイン固有であり、最新の外部知識を提供することで、Large Language Models(LLM)を補完する。
そこで本研究では,ゼロショット推論アルゴリズムであるTree-of-Traversalsを導入する。
論文 参考訳(メタデータ) (2024-07-31T06:01:24Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - RoT: Enhancing Large Language Models with Reflection on Search Trees [41.67536806038573]
本稿では,木探索に基づくプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)について紹介する。
強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。
本稿では,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択法を提案する。
論文 参考訳(メタデータ) (2024-04-08T12:31:23Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Tree-GPT: Modular Large Language Model Expert System for Forest Remote
Sensing Image Understanding and Interactive Analysis [4.993840366641032]
本稿では,大規模言語モデル(LLM)を森林リモートセンシングデータワークフローに組み込んだ新しいフレームワークであるTree-GPTを紹介する。
プロトタイプシステムは、森林研究や環境科学におけるLLMの動的利用の可能性を示した。
論文 参考訳(メタデータ) (2023-10-07T06:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。