論文の概要: Interpretable Contrastive Monte Carlo Tree Search Reasoning
- arxiv url: http://arxiv.org/abs/2410.01707v2
- Date: Fri, 11 Oct 2024 16:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:29:59.040250
- Title: Interpretable Contrastive Monte Carlo Tree Search Reasoning
- Title(参考訳): 解釈可能なコントラスト型モンテカルロ木探索手法
- Authors: Zitian Gao, Boye Niu, Xuzheng He, Haotian Xu, Hongzhang Liu, Aiwei Liu, Xuming Hu, Lijie Wen,
- Abstract要約: 大規模言語モデル(LLM)のための新しいモンテカルロ木探索法(MCTS)を提案する。
SC-MCTSは推論精度と速度の両方を著しく改善することを示した。
我々は,Llama-3.1-70BとSC-MCTS*を用いたBlocksworldのマルチステップ推論データセットにおいて,平均17.4%でo1-miniを上回りました。
- 参考スコア(独自算出の注目度): 25.11379135302235
- License:
- Abstract: We propose SC-MCTS*: a novel Monte Carlo Tree Search (MCTS) reasoning algorithm for Large Language Models (LLMs), significantly improves both reasoning accuracy and speed. Our motivation comes from: 1. Previous MCTS LLM reasoning works often overlooked its biggest drawback--slower speed compared to CoT; 2. Previous research mainly used MCTS as a tool for LLM reasoning on various tasks with limited quantitative analysis or ablation studies of its components from reasoning interpretability perspective. 3. The reward model is the most crucial component in MCTS, however previous work has rarely conducted in-depth study or improvement of MCTS's reward models. Thus, we conducted extensive ablation studies and quantitative analysis on components of MCTS, revealing the impact of each component on the MCTS reasoning performance of LLMs. Building on this, (i) we designed a highly interpretable reward model based on the principle of contrastive decoding and (ii) achieved an average speed improvement of 51.9% per node using speculative decoding. Additionally, (iii) we improved UCT node selection strategy and backpropagation used in previous works, resulting in significant performance improvement. We outperformed o1-mini by an average of 17.4% on the Blocksworld multi-step reasoning dataset using Llama-3.1-70B with SC-MCTS*. Our code is available at \url{https://github.com/zitian-gao/SC-MCTS}.
- Abstract(参考訳): 大規模言語モデル(LLM)のための新しいMCTS推論アルゴリズムであるSC-MCTS*を提案する。
私たちのモチベーションは:
1. 従来のMCTS LLM推論作業は、CoTと比較して最大の欠点-スロースピードを見落としていることが多い。
2) 従来の研究は, LLM推論のツールとしてMCTSを主に用いており, 定量分析が限定的であったり, 解釈可能性の観点からその成分のアブレーション研究を行ったりしていた。
3)報奨モデルはMCTSにおいて最も重要な要素であるが,これまでの研究ではMCTSの報奨モデルの改良や詳細な研究はめったに行われていない。
そこで我々は, LLMのMCTS推論性能に対する各成分の影響を明らかにするとともに, MCTSの成分に対する広範囲なアブレーション研究および定量的解析を行った。
この上に建つ。
一 コントラスト復号の原理に基づく高度に解釈可能な報酬モデルを設計し、
(ii) は投機的復号法を用いて1ノードあたり51.9%の速度向上を達成した。
また、
3) UCTノード選択戦略とバックプロパゲーションを改善した結果,性能が大幅に向上した。
我々は,Llama-3.1-70BとSC-MCTS*を用いたBlocksworldのマルチステップ推論データセットにおいて,平均17.4%でo1-miniを上回りました。
私たちのコードは \url{https://github.com/zitian-gao/SC-MCTS} で利用可能です。
関連論文リスト
- Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - THOUGHTSCULPT: Reasoning with Intermediate Revision and Search [45.55992387270442]
本稿では,THOUGHTSCULPTを提案する。
THOUGHTSCULPTはモンテカルロ木探索(MCTS)を用いて潜在的な解の探索木を探索し、解を一度に1つのアクションで構築し、任意のドメイン固有のコンポーネントに基づいて評価する。
実証的には、THOUGHTSCULPTは3つの課題にまたがる最先端の推論手法より優れている。
論文 参考訳(メタデータ) (2024-04-09T02:53:14Z) - LLMs with Chain-of-Thought Are Non-Causal Reasoners [34.18612597843633]
我々は,大規模言語モデルにおけるCoT/インストラクションと回答の因果関係を評価するために因果解析を用いる。
インプリードSCMと人間の推論とを比較することで,LLMと人間の推論プロセスの相違点を浮き彫りにする。
文脈内学習、教師付き微調整、人間のフィードバックに対する強化学習は因果関係に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential
Reasoning Ability [29.1826948551409]
AQA-Benchは、大規模言語モデルの逐次推論能力を評価するための新しいベンチマークである。
AQA-Benchは,2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築されている。
我々の調査では興味深い発見がいくつか示されている。
論文 参考訳(メタデータ) (2024-02-14T18:59:33Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion
Synthesis [59.465092047829835]
我々は、テキストから3次元の人間の動きを抽出する簡単な方法であるTMRを提案する。
提案手法は,最先端のテキスト-モーション合成モデルTEMOSを拡張した。
運動生成損失の維持は、対照的な訓練とともに、優れた性能を得るためには不可欠であることを示す。
論文 参考訳(メタデータ) (2023-05-02T17:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。