Fugu-MT 論文翻訳(概要): Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

論文の概要: Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

arxiv url: http://arxiv.org/abs/2412.15797v1
Date: Fri, 20 Dec 2024 11:14:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.938516
Title: Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning
Title（参考訳）: 複雑な推論のためのプロセス逆ガイド木探索による大規模言語モデルの構築
Authors: Sungjin Park, Xiao Liu, Yeyun Gong, Edward Choi,
Abstract要約: 言語モデル Ensemble with Monte Carlo Tree Search (LE-MCTS) は、言語モデルのプロセスレベルのアンサンブルのための新しいフレームワークである。 LE-MCTSはマルコフ決定プロセスとして言語モデルの集合を用いてステップバイステップ推論を定式化する。
参考スコア（独自算出の注目度）: 32.64328595807457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent advances in large language models, open-source models often struggle to consistently perform well on complex reasoning tasks. Existing ensemble methods, whether applied at the token or output levels, fail to address these challenges. In response, we present Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), a novel framework for process-level ensembling of language models. LE-MCTS formulates step-by-step reasoning with an ensemble of language models as a Markov decision process. In this framework, states represent intermediate reasoning paths, while actions consist of generating the next reasoning step using one of the language models selected from a predefined pool. Guided by a process-based reward model, LE-MCTS performs a tree search over the reasoning steps generated by different language models, identifying the most accurate reasoning chain. Experimental results on five mathematical reasoning benchmarks demonstrate that our approach outperforms both single language model decoding algorithms and language model ensemble methods. Notably, LE-MCTS improves performance by 3.6% and 4.3% on the MATH and MQA datasets, respectively, highlighting its effectiveness in solving complex reasoning problems.
Abstract（参考訳）: 近年の大規模言語モデルの発展にもかかわらず、オープンソースモデルは複雑な推論タスクにおいて一貫して機能するのに苦労することが多い。既存のアンサンブルメソッドは、トークンや出力レベルで適用しても、これらの課題に対処できない。そこで我々は,モンテカルロ木探索 (LE-MCTS) を用いた言語モデル Ensemble を提案する。 LE-MCTSはマルコフ決定プロセスとして言語モデルの集合を用いてステップバイステップ推論を定式化する。このフレームワークでは、状態は中間的推論パスを表し、アクションは事前に定義されたプールから選択された言語モデルのうちの1つを使用して次の推論ステップを生成する。プロセスベースの報酬モデルによってガイドされたLE-MCTSは、異なる言語モデルによって生成された推論ステップを木探索し、最も正確な推論チェーンを特定する。 5つの数学的推論ベンチマークによる実験結果から,本手法は単一言語モデル復号法と言語モデルアンサンブル法の両方より優れていることが示された。特に、LE-MCTSはMATHデータセットとMQAデータセットでそれぞれ3.6%と4.3%の性能を改善し、複雑な推論問題の解決におけるその有効性を強調している。

関連論文リスト

Dynamic Collaboration of Multi-Language Models based on Minimal Complete Semantic Units [29.79935180749153]
本稿では,トークンレベルの多モデル協調による言語モデルの推論能力の向上について検討する。分散距離に基づく動的選択戦略(DDS)を導入し,マルチモデル協調プロセスを最適化する。
論文参考訳（メタデータ） (2025-08-26T07:41:33Z)
mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文参考訳（メタデータ） (2025-08-13T18:59:02Z)
Enhancing Test-Time Scaling of Large Language Models with Hierarchical Retrieval-Augmented MCTS [19.394761422323853]
R2-LLMsは,新規で汎用的な階層型検索拡張推論フレームワークである。 R2-LLMsは、二重レベル検索ベースのインコンテキスト学習を統合することにより、推論時間一般化を強化する。 MATH500、GSM8K、OlympiadBench-TOデータセットに関する実証的な評価は、かなりの相対的な改善をもたらす。
論文参考訳（メタデータ） (2025-07-08T00:41:12Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Multi-LLM Collaborative Search for Complex Problem Solving [54.194370845153784]
そこで我々は,Mixture-of-Search-Agents(MoSA)パラダイムを提案する。 MoSAは、独立した探索とLCM間の反復的精錬を組み合わせることで、様々な推論経路を統合する。モンテカルロ木探索(MCTS)をバックボーンとして使用することにより、複数のエージェントが推論ステップを提案して集約することが可能となり、精度が向上する。
論文参考訳（メタデータ） (2025-02-26T06:31:04Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model Ensembling [23.447466392929712]
大規模言語モデル(LLM)は、様々なタスクに様々な長所と短所を示す。既存のLLMアンサンブル法は、しばしばモデルの互換性を見落とし、確率の非効率なアライメントに苦しむ。 textscUnion textscTop-$k$ textscEnsembling (textscUniTE)は,各モデルから上位kトークンの結合に着目し,効率的にモデルを結合する新しいアプローチである。
論文参考訳（メタデータ） (2024-10-03T08:42:38Z)
LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文参考訳（メタデータ） (2024-06-24T03:36:29Z)
A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks [30.54635848057259]
本稿では、よく知られた高性能な大規模言語モデル(LLM)の包括的な評価を行う。対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。
論文参考訳（メタデータ） (2024-05-16T16:56:54Z)
REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文参考訳（メタデータ） (2024-01-11T00:30:28Z)
Assessing and Enhancing the Robustness of Large Language Models with Task Structure Variations for Logical Reasoning [25.496627355906966]
我々は「ReClor-plus」、「LogiQA-plus」、「LogiQAv2-plus」という3つの新しい論理推論データセットを開発した。実験により、これらの単純な拡張がモデルの性能を著しく損なうことが示されている。微調整とプロンプトのためのロジック駆動型データ拡張の適用は、識別モデルと生成モデルの両方における一般化を促進することができる。
論文参考訳（メタデータ） (2023-10-13T22:29:15Z)
Coupling Large Language Models with Logic Programming for Robust and General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文参考訳（メタデータ） (2023-07-15T03:29:59Z)
Improving Factuality and Reasoning in Language Models through Multiagent Debate [95.10641301155232]
複数の言語モデルインスタンスが共通の最終回答に到達するために、複数のラウンドで個別の応答と推論プロセスを提案し、議論する言語応答を改善するための補完的なアプローチを提案する。以上の結果から,本手法は様々なタスクにおける数学的・戦略的推論を著しく向上させることが示唆された。我々のアプローチは、既存のブラックボックスモデルに直接適用され、調査するすべてのタスクに対して、同じ手順とプロンプトを使用することができる。
論文参考訳（メタデータ） (2023-05-23T17:55:11Z)
STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文参考訳（メタデータ） (2023-02-13T22:34:02Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-06T03:38:36Z)
An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文参考訳（メタデータ） (2022-01-23T22:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。