Fugu-MT 論文翻訳(概要): Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training

論文の概要: Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training

arxiv url: http://arxiv.org/abs/2309.17179v1
Date: Fri, 29 Sep 2023 12:20:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 14:03:33.714479
Title: Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training
Title（参考訳）: alphazeroライクなツリー検索は、大きな言語モデルのデコードとトレーニングをガイドする
Authors: Xidong Feng, Ziyu Wan, Muning Wen, Ying Wen, Weinan Zhang, Jun Wang
Abstract要約: 大型言語モデル (LLM) ではサンプリングやビームサーチが一般的であり、Chain-of-Thought (CoT) などのプロンプトが伴う。 The recent work of Tree-of-Thought (ToT) and Reasoning via Planning (RAP)は、木探索アルゴリズムを用いて多段階推論を導くことで、LLMの推論能力を高めることを目的としている。
参考スコア（独自算出の注目度）: 38.9969259457313
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) typically employ sampling or beam search, accompanied by prompts such as Chain-of-Thought (CoT), to boost reasoning and decoding ability. Recent work like Tree-of-Thought (ToT) and Reasoning via Planning (RAP) aim to augment the reasoning capabilities of LLMs by utilizing tree-search algorithms to guide multi-step reasoning. These methods mainly focus on LLMs' reasoning ability during inference and heavily rely on human-designed prompts to activate LLM as a value function, which lacks general applicability and scalability. To address these limitations, we present an AlphaZero-like tree-search framework for LLMs (termed TS-LLM), systematically illustrating how tree-search with a learned value function can guide LLMs' decoding ability. TS-LLM distinguishes itself in two key ways: (1) Leveraging a learned value function, our approach can be generally applied to different tasks beyond reasoning (such as RLHF alignment), and LLMs of any size, without prompting advanced, large-scale models. (2) It can guide LLM's decoding during both inference and training. Empirical evaluations across reasoning, planning, and RLHF alignment tasks validate the effectiveness of TS-LLM, even on trees with a depth of 64.
Abstract（参考訳）: 大規模言語モデル (LLM) は通常サンプリングやビームサーチを採用し、推論と復号能力を高めるためにChain-of-Thought (CoT) などのプロンプトを伴っている。 The recent work of Tree-of-Thought (ToT) and Reasoning via Planning (RAP)は、木探索アルゴリズムを用いて多段階推論を導くことで、LLMの推論能力を高めることを目的としている。これらの手法は主に推論中のLLMの推論能力に重点を置いており、汎用性とスケーラビリティに欠ける値関数としてLLMを活性化するための人間設計のプロンプトに強く依存している。これらの制約に対処するために、学習値関数を用いた木探索がLLMの復号能力をいかに導くかを体系的に示すAlphaZero-like tree-search framework for LLMs (termed TS-LLM)を提案する。 TS-LLMは,(1)学習値関数の活用,(RLHFアライメントなどの)推論以外のタスクに適用可能なアプローチ,および,任意のサイズのLSMに対して,高度な大規模モデルを促すことなく適用可能なアプローチである。 2) LLM の推論と学習における復号化を導くことができる。推理,計画,RLHFアライメントタスクにおける実証的評価は,深さ64。

関連論文リスト

Fine-tuning Large Language Model for Automated Algorithm Design [23.04239252690957]
アルゴリズム設計のための大規模言語モデル(LLM)の微調整について検討する。我々の実験は3つの異なるアルゴリズム設計タスクにまたがっている。以上の結果から, 微調整LLMは市販のLLMよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2025-07-13T15:21:23Z)
TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2025-06-12T05:25:35Z)
SELT: Self-Evaluation Tree Search for LLMs with Task Decomposition [5.5688696788198975]
外部報酬モデルに頼らずにLSM推論を強化する新しいフレームワークであるSELT(Self-Evaluation LLM Tree Search)を紹介する。知識に基づくMMLUとツール学習データセットSeal-Toolsを含む,挑戦的なベンチマークに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-09T08:52:27Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
A Comprehensive Analysis on LLM-based Node Classification Algorithms [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。 10のデータセット、8つのLLMベースのアルゴリズム、3つの学習パラダイムを含み、新しいメソッドとデータセットで簡単に拡張できるように設計されている。パフォーマンスに影響を与える重要な設定を決定するために、広範な実験、トレーニング、および2200以上のモデルの評価を行います。その結果, LLM法は半教師付き環境で従来の手法を著しく上回り, その利点は教師付き環境ではごくわずかである,という8つの知見が得られた。
論文参考訳（メタデータ） (2025-02-02T15:56:05Z)
Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
zsLLMCode: An Effective Approach for Functional Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
大型言語モデル(LLM)はゼロショット学習の能力を持ち、訓練や微調整を必要としない。 LLMを用いた関数型コード埋め込みを生成する新しいアプローチであるzsLLMCodeを提案する。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
Tree-of-Traversals: A Zero-Shot Reasoning Algorithm for Augmenting Black-box Language Models with Knowledge Graphs [72.89652710634051]
知識グラフ(KG)は、信頼性があり、構造化され、ドメイン固有であり、最新の外部知識を提供することで、Large Language Models(LLM)を補完する。そこで本研究では,ゼロショット推論アルゴリズムであるTree-of-Traversalsを導入する。
論文参考訳（メタデータ） (2024-07-31T06:01:24Z)
LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。 GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文参考訳（メタデータ） (2024-06-29T05:14:04Z)
Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文参考訳（メタデータ） (2024-04-16T08:28:16Z)
RoT: Enhancing Large Language Models with Reflection on Search Trees [41.67536806038573]
本稿では,木探索に基づくプロンプト手法の性能向上を目的としたLLMリフレクションフレームワークであるリフレクション・オン・サーチ・ツリー(RoT)について紹介する。強力なLLMを使用して、以前の木探索経験からガイドラインを要約し、弱いLLMの能力を高める。本稿では,RoTがより具体的で意味のあるガイドラインを生成するのを支援するために,歴史的検索プロセスから重要な情報を識別する新しい状態選択法を提案する。
論文参考訳（メタデータ） (2024-04-08T12:31:23Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文参考訳（メタデータ） (2023-10-14T14:14:38Z)
Tree-GPT: Modular Large Language Model Expert System for Forest Remote Sensing Image Understanding and Interactive Analysis [4.993840366641032]
本稿では,大規模言語モデル(LLM)を森林リモートセンシングデータワークフローに組み込んだ新しいフレームワークであるTree-GPTを紹介する。プロトタイプシステムは、森林研究や環境科学におけるLLMの動的利用の可能性を示した。
論文参考訳（メタデータ） (2023-10-07T06:12:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。