Fugu-MT 論文翻訳(概要): Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search

論文の概要: Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search

arxiv url: http://arxiv.org/abs/2411.11694v3
Date: Sun, 22 Dec 2024 10:56:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 17:32:08.668675
Title: Technical Report: Enhancing LLM Reasoning with Reward-guided Tree Search
Title（参考訳）: 技術的報告:リワード誘導木探索によるLLM推論の強化
Authors: Jinhao Jiang, Zhipeng Chen, Yingqian Min, Jie Chen, Xiaoxue Cheng, Jiapeng Wang, Yiru Tang, Haoxiang Sun, Jia Deng, Wayne Xin Zhao, Zheng Liu, Dong Yan, Jian Xie, Zhongyuan Wang, Ji-Rong Wen,
Abstract要約: o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
参考スコア（独自算出の注目度）: 95.06503095273395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, test-time scaling has garnered significant attention from the research community, largely due to the substantial advancements of the o1 model released by OpenAI. By allocating more computational resources during the inference phase, large language models~(LLMs) can extensively explore the solution space by generating more thought tokens or diverse solutions, thereby producing more accurate responses. However, developing an o1-like reasoning approach is challenging, and researchers have been making various attempts to advance this open area of research. In this paper, we present a preliminary exploration into enhancing the reasoning abilities of LLMs through reward-guided tree search algorithms. This framework is implemented by integrating the policy model, reward model, and search algorithm. It is primarily constructed around a tree search algorithm, where the policy model navigates a dynamically expanding tree guided by a specially trained reward model. The implemented framework is denoted as \textbf{STILL-1}. We thoroughly explore various design considerations necessary for implementing this framework and provide a detailed report of the technical aspects. To assess the effectiveness of our approach, we focus on mathematical reasoning tasks and conduct extensive evaluations on four challenging datasets, significantly enhancing the reasoning abilities of LLMs.
Abstract（参考訳）: 近年、OpenAIがリリースしたo1モデルの大幅な進歩により、テストタイムのスケーリングが研究コミュニティから大きな注目を集めている。推論フェーズの間、より多くの計算資源を割り当てることで、大きな言語モデル~(LLM)は、より多くの思考トークンや多様なソリューションを生成し、より正確な応答を生成することで、ソリューション空間を広範囲に探索することができる。しかし、o1のような推論手法の開発は困難であり、研究者はこのオープンな研究領域を前進させる様々な試みを行っている。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。このフレームワークはポリシーモデル、報酬モデル、検索アルゴリズムを統合することで実装される。主にツリー探索アルゴリズムに基づいて構築され、ポリシーモデルでは、特別に訓練された報酬モデルによって誘導される動的に拡大するツリーをナビゲートする。実装されたフレームワークは \textbf{STILL-1} と表記される。このフレームワークの実装に必要な設計上の考慮事項を徹底的に検討し、技術的な側面を詳細に報告する。提案手法の有効性を評価するため, 数学的推論タスクに着目し, 4つの挑戦的データセットに対して広範囲な評価を行い, LLMの推論能力を大幅に向上させた。

関連論文リスト

MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:59:42Z)
Policy Guided Tree Search for Enhanced LLM Reasoning [3.090041654375235]
Policy-Guided Tree Search (PGTS)は、強化学習と構造化木探索を組み合わせて推論経路を効率的にナビゲートするフレームワークである。私たちの重要なイノベーションは、手作業や徹底的な検索の必要性をなくし、拡大、分岐、追跡、探索の終了を動的に決定する、学習されたポリシーです。
論文参考訳（メタデータ） (2025-02-04T22:08:20Z)
CoAT: Chain-of-Associated-Thoughts Framework for Enhancing Large Language Models Reasoning [0.8192907805418583]
Chain-of-Associated-Thoughts (CoAT)フレームワークは、モンテカルロ木探索(MCTS)アルゴリズムと「連想記憶」と呼ばれる新しいキー情報を統合する動的メカニズムの革新的な相乗効果を導入している。 MCTSの構造的探索能力と連想記憶の適応学習能力を組み合わせることで、CoATはLLM検索空間を大幅に拡張し、多様な推論経路を探索し、その知識ベースをリアルタイムで動的に更新することを可能にする。これらの実験により、我々のフレームワークは、精度、コヒーレンス、多様性に関する従来の推論プロセスより優れていることが示された。
論文参考訳（メタデータ） (2025-02-04T15:10:33Z)
Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models [33.13238566815798]
大規模言語モデル(LLM)は、複雑な推論タスクに対処するためにそれらを活用することに大きな研究の関心を呼んだ。最近の研究は、LLMがテスト時間推論中により多くのトークンで"考える"ことを奨励することは、推論の精度を著しく向上させることを示した。 OpenAIのo1シリーズの導入は、この研究の方向性において重要なマイルストーンである。
論文参考訳（メタデータ） (2025-01-16T17:37:58Z)
Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文参考訳（メタデータ） (2024-12-18T18:24:47Z)
BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving [11.596474985695679]
我々は、完全な数学的モデリングプロセスをキャプチャする包括的ラベルを付したStructuredORデータセットをリリースする。本稿では,強化学習をツリー・オブ・シント構造に統合するアルゴリズムであるBPP-Searchを提案する。 BPP-Searchは、Chain-of-Thought、Self-Consistency、Tree-of-Thoughtなど、最先端の手法を大幅に上回っている。
論文参考訳（メタデータ） (2024-11-26T13:05:53Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。 GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文参考訳（メタデータ） (2024-06-29T05:14:04Z)
The Efficiency Spectrum of Large Language Models: An Algorithmic Survey [54.19942426544731]
LLM(Large Language Models)の急速な成長は、様々なドメインを変換する原動力となっている。本稿では,LLMのエンドツーエンドのアルゴリズム開発に不可欠な多面的効率性について検討する。
論文参考訳（メタデータ） (2023-12-01T16:00:25Z)
Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文参考訳（メタデータ） (2023-10-23T05:52:09Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models [17.059322033670124]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文参考訳（メタデータ） (2023-08-20T22:36:23Z)
Learning Optimal Tree Models Under Beam Search [27.92120639502327]
既存のツリーモデルは、トレーニングテストの相違に悩まされている。我々はビームサーチとキャリブレーションの下でベイズ最適性の概念を開発する。本稿では,ビームサーチによる最適木モデル学習のための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-27T17:20:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。