論文の概要: Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training
- arxiv url: http://arxiv.org/abs/2309.17179v1
- Date: Fri, 29 Sep 2023 12:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 14:03:33.714479
- Title: Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training
- Title(参考訳): alphazeroライクなツリー検索は、大きな言語モデルのデコードとトレーニングをガイドする
- Authors: Xidong Feng, Ziyu Wan, Muning Wen, Ying Wen, Weinan Zhang, Jun Wang
- Abstract要約: 大型言語モデル (LLM) ではサンプリングやビームサーチが一般的であり、Chain-of-Thought (CoT) などのプロンプトが伴う。
The recent work of Tree-of-Thought (ToT) and Reasoning via Planning (RAP)は、木探索アルゴリズムを用いて多段階推論を導くことで、LLMの推論能力を高めることを目的としている。
- 参考スコア(独自算出の注目度): 38.9969259457313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) typically employ sampling or beam search,
accompanied by prompts such as Chain-of-Thought (CoT), to boost reasoning and
decoding ability. Recent work like Tree-of-Thought (ToT) and Reasoning via
Planning (RAP) aim to augment the reasoning capabilities of LLMs by utilizing
tree-search algorithms to guide multi-step reasoning. These methods mainly
focus on LLMs' reasoning ability during inference and heavily rely on
human-designed prompts to activate LLM as a value function, which lacks general
applicability and scalability. To address these limitations, we present an
AlphaZero-like tree-search framework for LLMs (termed TS-LLM), systematically
illustrating how tree-search with a learned value function can guide LLMs'
decoding ability. TS-LLM distinguishes itself in two key ways: (1) Leveraging a
learned value function, our approach can be generally applied to different
tasks beyond reasoning (such as RLHF alignment), and LLMs of any size, without
prompting advanced, large-scale models. (2) It can guide LLM's decoding during
both inference and training. Empirical evaluations across reasoning, planning,
and RLHF alignment tasks validate the effectiveness of TS-LLM, even on trees
with a depth of 64.
- Abstract(参考訳): 大規模言語モデル (LLM) は通常サンプリングやビームサーチを採用し、推論と復号能力を高めるためにChain-of-Thought (CoT) などのプロンプトを伴っている。
The recent work of Tree-of-Thought (ToT) and Reasoning via Planning (RAP)は、木探索アルゴリズムを用いて多段階推論を導くことで、LLMの推論能力を高めることを目的としている。
これらの手法は主に推論中のLLMの推論能力に重点を置いており、汎用性とスケーラビリティに欠ける値関数としてLLMを活性化するための人間設計のプロンプトに強く依存している。
これらの制約に対処するために、学習値関数を用いた木探索がLLMの復号能力をいかに導くかを体系的に示すAlphaZero-like tree-search framework for LLMs (termed TS-LLM)を提案する。
TS-LLMは,(1)学習値関数の活用,(RLHFアライメントなどの)推論以外のタスクに適用可能なアプローチ,および,任意のサイズのLSMに対して,高度な大規模モデルを促すことなく適用可能なアプローチである。
2) LLM の推論と学習における復号化を導くことができる。
推理,計画,RLHFアライメントタスクにおける実証的評価は,深さ64。
関連論文リスト
- Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。
LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - Tree-of-Traversals: A Zero-Shot Reasoning Algorithm for Augmenting Black-box Language Models with Knowledge Graphs [72.89652710634051]
知識グラフ(KG)は、信頼性があり、構造化され、ドメイン固有であり、最新の外部知識を提供することで、Large Language Models(LLM)を補完する。
そこで本研究では,ゼロショット推論アルゴリズムであるTree-of-Traversalsを導入する。
論文 参考訳(メタデータ) (2024-07-31T06:01:24Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - RoT: Enhancing Large Language Models with Reflection on Search Trees [41.67536806038573]
本稿では,木探索に基づくプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)について紹介する。
強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。
本稿では,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択法を提案する。
論文 参考訳(メタデータ) (2024-04-08T12:31:23Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Tree-GPT: Modular Large Language Model Expert System for Forest Remote
Sensing Image Understanding and Interactive Analysis [4.993840366641032]
本稿では,大規模言語モデル(LLM)を森林リモートセンシングデータワークフローに組み込んだ新しいフレームワークであるTree-GPTを紹介する。
プロトタイプシステムは、森林研究や環境科学におけるLLMの動的利用の可能性を示した。
論文 参考訳(メタデータ) (2023-10-07T06:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。