論文の概要: No Train Still Gain. Unleash Mathematical Reasoning of Large Language
Models with Monte Carlo Tree Search Guided by Energy Function
- arxiv url: http://arxiv.org/abs/2309.03224v3
- Date: Tue, 12 Sep 2023 03:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 16:20:29.383080
- Title: No Train Still Gain. Unleash Mathematical Reasoning of Large Language
Models with Monte Carlo Tree Search Guided by Energy Function
- Title(参考訳): 列車はまだ乗れない。
エネルギー関数によるモンテカルロ木探索による大規模言語モデルの非定常数学的推論
- Authors: Haotian Xu
- Abstract要約: 大きな言語モデル(LLM)は、印象的な言語理解と文脈学習能力を示している。
LLMは、解の確率が高いにもかかわらず、正しい推論ステップと答えを生成するのにしばしば苦労する。
モンテカルロ木探索 (MCTS) と軽量エネルギー関数を組み込んだ決定ステップのランク付け手法を提案する。
- 参考スコア(独自算出の注目度): 3.0299876288833345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate impressive language understanding
and contextual learning abilities, making them suitable for natural language
processing (NLP) tasks and complex mathematical reasoning. However, when
applied to mathematical reasoning tasks, LLMs often struggle to generate
correct reasoning steps and answers despite having high probabilities for the
solutions. To overcome this limitation and enhance the mathematical reasoning
capabilities of fine-tuned LLMs without additional fine-tuning steps, we
propose a method that incorporates Monte Carlo Tree Search (MCTS) and a
lightweight energy function to rank decision steps and enable immediate
reaction and precise reasoning. Specifically, we re-formulate the fine-tuned
LLMs into a Residual-based Energy Model (Residual-EBM) and employ noise
contrastive estimation to estimate the energy function's parameters. We then
utilize MCTS with the energy function as a path verifier to search the output
space and evaluate the reasoning path. Through extensive experiments on two
mathematical reasoning benchmarks, GSM8k and AQUA-RAT, we demonstrate the
exceptional capabilities of our method, which significantly improves the pass@1
metric of the fine-tuned model without requiring additional fine-tuning or
reinforcement learning with human feedback alignment.
- Abstract(参考訳): 大きな言語モデル(llm)は印象的な言語理解と文脈学習能力を示し、自然言語処理(nlp)タスクや複雑な数学的推論に適している。
しかしながら、数学的推論タスクに適用する場合、LLMは解の確率が高いにもかかわらず正しい推論ステップと解を生成するのに苦労することが多い。
この制限を克服し、追加の微調整ステップなしに微調整されたllmの数学的推論能力を高めるために、モンテカルロ木探索(mcts)と軽量エネルギー関数を組み込んだ決定ステップをランク付けし、即時反応と正確な推論を可能にする手法を提案する。
具体的には,微調整 LLM を残留エネルギーモデル (Residual-EBM) に再構成し,ノイズコントラスト推定を用いてエネルギー関数のパラメータを推定する。
次に、MCTSのエネルギー関数を経路検証器として利用し、出力空間を探索し、推論経路を評価する。
GSM8kとAQUA-RATの2つの数学的推論ベンチマークに関する広範な実験を通じて、人間のフィードバックアライメントによる微調整や強化学習を必要とせずに、微調整モデルのpass@1メトリックスを大幅に改善する手法の優れた能力を実証した。
関連論文リスト
- Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model [15.542737858152053]
KPDD(Key-Point-Driven Mathematical Reasoning Distillation)を提案する。
KPDDは、問題解決プロセスを3段階に分割することで、SLMの推論性能を向上させる。
実験により、KPDD-CoTは推論能力を大幅に向上し、KPDD-PoTは数学的推論タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-14T11:41:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Sci-CoT: Leveraging Large Language Models for Enhanced Knowledge
Distillation in Small Models for Scientific QA [5.117094291273979]
大規模言語モデル(LLM)は、幅広い下流タスクで優れたパフォーマンスを示している。
本稿では2段階のフレームワークであるSci-CoTを提案する。
我々の8000万のパラメータモデルは、いくつかのショット設定の下でARC-EasyデータセットにおけるBLOOM-176Bの性能を上回ることができる。
論文 参考訳(メタデータ) (2023-08-09T03:18:07Z) - Learning Multi-Step Reasoning by Solving Arithmetic Tasks [6.398022050054328]
本研究では,比較的小さな言語モデルを多段階推論の能力に組み込む方法について検討する。
我々は,合成データセットMsAT上でLMを継続的に事前学習することにより,そのような能力を注入することを提案する。
提案手法の有効性を示す4つの数学単語問題データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-06-02T17:29:22Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。