論文の概要: Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training
- arxiv url: http://arxiv.org/abs/2309.17179v1
- Date: Fri, 29 Sep 2023 12:20:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 14:03:33.714479
- Title: Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training
- Title(参考訳): alphazeroライクなツリー検索は、大きな言語モデルのデコードとトレーニングをガイドする
- Authors: Xidong Feng, Ziyu Wan, Muning Wen, Ying Wen, Weinan Zhang, Jun Wang
- Abstract要約: 大型言語モデル (LLM) ではサンプリングやビームサーチが一般的であり、Chain-of-Thought (CoT) などのプロンプトが伴う。
The recent work of Tree-of-Thought (ToT) and Reasoning via Planning (RAP)は、木探索アルゴリズムを用いて多段階推論を導くことで、LLMの推論能力を高めることを目的としている。
- 参考スコア(独自算出の注目度): 38.9969259457313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) typically employ sampling or beam search,
accompanied by prompts such as Chain-of-Thought (CoT), to boost reasoning and
decoding ability. Recent work like Tree-of-Thought (ToT) and Reasoning via
Planning (RAP) aim to augment the reasoning capabilities of LLMs by utilizing
tree-search algorithms to guide multi-step reasoning. These methods mainly
focus on LLMs' reasoning ability during inference and heavily rely on
human-designed prompts to activate LLM as a value function, which lacks general
applicability and scalability. To address these limitations, we present an
AlphaZero-like tree-search framework for LLMs (termed TS-LLM), systematically
illustrating how tree-search with a learned value function can guide LLMs'
decoding ability. TS-LLM distinguishes itself in two key ways: (1) Leveraging a
learned value function, our approach can be generally applied to different
tasks beyond reasoning (such as RLHF alignment), and LLMs of any size, without
prompting advanced, large-scale models. (2) It can guide LLM's decoding during
both inference and training. Empirical evaluations across reasoning, planning,
and RLHF alignment tasks validate the effectiveness of TS-LLM, even on trees
with a depth of 64.
- Abstract(参考訳): 大規模言語モデル (LLM) は通常サンプリングやビームサーチを採用し、推論と復号能力を高めるためにChain-of-Thought (CoT) などのプロンプトを伴っている。
The recent work of Tree-of-Thought (ToT) and Reasoning via Planning (RAP)は、木探索アルゴリズムを用いて多段階推論を導くことで、LLMの推論能力を高めることを目的としている。
これらの手法は主に推論中のLLMの推論能力に重点を置いており、汎用性とスケーラビリティに欠ける値関数としてLLMを活性化するための人間設計のプロンプトに強く依存している。
これらの制約に対処するために、学習値関数を用いた木探索がLLMの復号能力をいかに導くかを体系的に示すAlphaZero-like tree-search framework for LLMs (termed TS-LLM)を提案する。
TS-LLMは,(1)学習値関数の活用,(RLHFアライメントなどの)推論以外のタスクに適用可能なアプローチ,および,任意のサイズのLSMに対して,高度な大規模モデルを促すことなく適用可能なアプローチである。
2) LLM の推論と学習における復号化を導くことができる。
推理,計画,RLHFアライメントタスクにおける実証的評価は,深さ64。
関連論文リスト
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - RoT: Enhancing Large Language Models with Reflection on Search Trees [39.56534154752625]
本稿では,木探索に基づくプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)について紹介する。
強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。
本稿では,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択法を提案する。
論文 参考訳(メタデータ) (2024-04-08T12:31:23Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Tree-Based Hard Attention with Self-Motivation for Large Language Models [7.2677650379517775]
大きな言語モデル(LLM)は、平易なテキストの理解と生成に優れる。
階層的なテキスト構造を扱うように特別に調整されていない。
本稿では,大規模言語モデルのための自己モチベーションを用いた木ベースハードアテンションという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T00:40:51Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [65.18096363216574]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Tree-GPT: Modular Large Language Model Expert System for Forest Remote
Sensing Image Understanding and Interactive Analysis [4.993840366641032]
本稿では,大規模言語モデル(LLM)を森林リモートセンシングデータワークフローに組み込んだ新しいフレームワークであるTree-GPTを紹介する。
プロトタイプシステムは、森林研究や環境科学におけるLLMの動的利用の可能性を示した。
論文 参考訳(メタデータ) (2023-10-07T06:12:39Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。