Fugu-MT 論文翻訳(概要): Interpretable Contrastive Monte Carlo Tree Search Reasoning

論文の概要: Interpretable Contrastive Monte Carlo Tree Search Reasoning

arxiv url: http://arxiv.org/abs/2410.01707v2
Date: Fri, 11 Oct 2024 16:28:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 15:53:34.136828
Title: Interpretable Contrastive Monte Carlo Tree Search Reasoning
Title（参考訳）: 解釈可能なコントラスト型モンテカルロ木探索手法
Authors: Zitian Gao, Boye Niu, Xuzheng He, Haotian Xu, Hongzhang Liu, Aiwei Liu, Xuming Hu, Lijie Wen,
Abstract要約: 大規模言語モデル(LLM)のための新しいモンテカルロ木探索法(MCTS)を提案する。 SC-MCTSは推論精度と速度の両方を著しく改善することを示した。我々は,Llama-3.1-70BとSC-MCTS*を用いたBlocksworldのマルチステップ推論データセットにおいて,平均17.4%でo1-miniを上回りました。
参考スコア（独自算出の注目度）: 25.11379135302235
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose SC-MCTS*: a novel Monte Carlo Tree Search (MCTS) reasoning algorithm for Large Language Models (LLMs), significantly improves both reasoning accuracy and speed. Our motivation comes from: 1. Previous MCTS LLM reasoning works often overlooked its biggest drawback--slower speed compared to CoT; 2. Previous research mainly used MCTS as a tool for LLM reasoning on various tasks with limited quantitative analysis or ablation studies of its components from reasoning interpretability perspective. 3. The reward model is the most crucial component in MCTS, however previous work has rarely conducted in-depth study or improvement of MCTS's reward models. Thus, we conducted extensive ablation studies and quantitative analysis on components of MCTS, revealing the impact of each component on the MCTS reasoning performance of LLMs. Building on this, (i) we designed a highly interpretable reward model based on the principle of contrastive decoding and (ii) achieved an average speed improvement of 51.9% per node using speculative decoding. Additionally, (iii) we improved UCT node selection strategy and backpropagation used in previous works, resulting in significant performance improvement. We outperformed o1-mini by an average of 17.4% on the Blocksworld multi-step reasoning dataset using Llama-3.1-70B with SC-MCTS*. Our code is available at \url{https://github.com/zitian-gao/SC-MCTS}.
Abstract（参考訳）: 大規模言語モデル(LLM)のための新しいMCTS推論アルゴリズムであるSC-MCTS*を提案する。私たちのモチベーションは: 1. 従来のMCTS LLM推論作業は、CoTと比較して最大の欠点-スロースピードを見落としていることが多い。 2) 従来の研究は, LLM推論のツールとしてMCTSを主に用いており, 定量分析が限定的であったり, 解釈可能性の観点からその成分のアブレーション研究を行ったりしていた。 3)報奨モデルはMCTSにおいて最も重要な要素であるが,これまでの研究ではMCTSの報奨モデルの改良や詳細な研究はめったに行われていない。そこで我々は, LLMのMCTS推論性能に対する各成分の影響を明らかにするとともに, MCTSの成分に対する広範囲なアブレーション研究および定量的解析を行った。この上に建つ。一コントラスト復号の原理に基づく高度に解釈可能な報酬モデルを設計し、 (ii) は投機的復号法を用いて1ノードあたり51.9%の速度向上を達成した。また、 3) UCTノード選択戦略とバックプロパゲーションを改善した結果,性能が大幅に向上した。我々は,Llama-3.1-70BとSC-MCTS*を用いたBlocksworldのマルチステップ推論データセットにおいて,平均17.4%でo1-miniを上回りました。私たちのコードは \url{https://github.com/zitian-gao/SC-MCTS} で利用可能です。

関連論文リスト

Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文参考訳（メタデータ） (2025-07-16T17:59:24Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文参考訳（メタデータ） (2025-05-20T17:59:31Z)
Have Large Language Models Learned to Reason? A Characterization via 3-SAT Phase Transition [11.422434149376478]
大規模言語モデル(LLM)は高度な推論能力を持つAIモデルとして評価されている。理論上は、Chain-of-Thought (CoT) を用いた自己回帰 LLM は複雑な推論タスクを解くためによりシリアルな計算を行うことができる。近年の研究では、LSMは、この能力にもかかわらず、理性を学ぶのではなく、統計的特徴に適合することが示唆されている。
論文参考訳（メタデータ） (2025-04-04T20:57:36Z)
MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search [27.378904180238557]
本稿では,知識集約型タスクにおける小言語モデルの推論能力を高める新しいアプローチであるMCTS-RAGを紹介する。通常、推論から独立して情報を取得する標準的なRAG法とは異なり、MCTS-RAGは構造化推論と適応的検索を組み合わせる。この統合されたアプローチは意思決定を強化し、幻覚を減らし、事実の正確性と応答の整合性を向上させる。
論文参考訳（メタデータ） (2025-03-26T17:46:08Z)
Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking [39.48406368755411]
大言語モデル(LLM)がRLLM(Reasoning Large Language Models)を導入 RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示し、自然な疑問に繋がる:「CoTは、RLLMの推論能力を高めるために必要か?」。本稿では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響を初めて包括的に解析する。
論文参考訳（メタデータ） (2025-03-25T12:37:22Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文参考訳（メタデータ） (2025-02-25T10:48:05Z)
MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation [17.432401371613903]
本稿では,コード正確性評価のための資源効率の高いシステム2思考フレームワークを提案する。 MCTS-Judgeはモンテカルロ木探索を用いて問題を単純かつ多視点的な評価に分解する。高精度で単体テストレベルの報酬メカニズムは、大規模言語モデルにライン・バイ・ライン分析の実行を促す。
論文参考訳（メタデータ） (2025-02-18T02:55:48Z)
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-02-13T18:59:46Z)
LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組むまた,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文参考訳（メタデータ） (2025-02-11T08:48:48Z)
When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高めるしかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか? 本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文参考訳（メタデータ） (2025-02-11T05:28:59Z)
MC-NEST: Enhancing Mathematical Reasoning in Large Language Models leveraging a Monte Carlo Self-Refine Tree [0.16385815610837165]
我々はモンテカルロ木探索の拡張としてモンテカルロ自給木(MC-NEST)を提案する。 MC-NESTは、複雑な推論タスクにおける意思決定の改善のための自己補正と自己評価を統合している。 Olympiadレベルのベンチマークで、最先端のpass@1スコアを達成している。
論文参考訳（メタデータ） (2024-11-23T20:31:58Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment [0.0]
Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。本稿では,古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
論文参考訳（メタデータ） (2024-09-25T05:04:53Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
THOUGHTSCULPT: Reasoning with Intermediate Revision and Search [45.55992387270442]
本稿では,THOUGHTSCULPTを提案する。 THOUGHTSCULPTはモンテカルロ木探索(MCTS)を用いて潜在的な解の探索木を探索し、解を一度に1つのアクションで構築し、任意のドメイン固有のコンポーネントに基づいて評価する。実証的には、THOUGHTSCULPTは3つの課題にまたがる最先端の推論手法より優れている。
論文参考訳（メタデータ） (2024-04-09T02:53:14Z)
AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential Reasoning Ability [29.1826948551409]
AQA-Benchは、大規模言語モデルの逐次推論能力を評価するための新しいベンチマークである。 AQA-Benchは,2進探索,深さ優先探索,幅優先探索という3つのアルゴリズムで構築されている。我々の調査では興味深い発見がいくつか示されている。
論文参考訳（メタデータ） (2024-02-14T18:59:33Z)
Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis [70.78170766633039]
我々は、MTS予測提案を確実かつ公平に評価する手段の必要性に対処する。 BasicTS+は、MTS予測ソリューションの公平で包括的で再現可能な比較を可能にするために設計されたベンチマークである。リッチデータセットとともにBasicTS+を適用し,45 MTS以上の予測ソリューションの性能を評価する。
論文参考訳（メタデータ） (2023-10-09T19:52:22Z)
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。 ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:59Z)
Benchmarking Causal Study to Interpret Large Language Models for Source Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文参考訳（メタデータ） (2023-08-23T20:32:12Z)
Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。 2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文参考訳（メタデータ） (2023-05-23T06:13:10Z)
Scale-Adaptive Balancing of Exploration and Exploitation in Classical Planning [1.6574413179773757]
我々は,MAB文献のより詳細な理論的理解が,既存の計画アルゴリズムの改善に役立つことを示す。本稿では, UCB1-Normal bandit を用いた MCTS/THTS アルゴリズムである GreedyUCT-Normal を提案する。
論文参考訳（メタデータ） (2023-05-16T22:46:37Z)
TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion Synthesis [59.465092047829835]
我々は、テキストから3次元の人間の動きを抽出する簡単な方法であるTMRを提案する。提案手法は,最先端のテキスト-モーション合成モデルTEMOSを拡張した。運動生成損失の維持は、対照的な訓練とともに、優れた性能を得るためには不可欠であることを示す。
論文参考訳（メタデータ） (2023-05-02T17:52:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。