論文の概要: Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
- arxiv url: http://arxiv.org/abs/2408.06195v1
- Date: Mon, 12 Aug 2024 14:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 13:03:23.820624
- Title: Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers
- Title(参考訳): より小さなLSMをより強力な問題ソーバにする相互推論
- Authors: Zhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang,
- Abstract要約: rStarは、小さな言語モデルのための自己再生相互推論アプローチである。
微調整や優れたモデルなしで推論能力を大幅に改善する。
GSM8K、GSM-Hard、MATH、SVAMP、StrategyQAなどの様々な推論問題を効果的に解決できる。
- 参考スコア(独自算出の注目度): 8.610710829143889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces rStar, a self-play mutual reasoning approach that significantly improves reasoning capabilities of small language models (SLMs) without fine-tuning or superior models. rStar decouples reasoning into a self-play mutual generation-discrimination process. First, a target SLM augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like reasoning actions to construct higher quality reasoning trajectories. Next, another SLM, with capabilities similar to the target SLM, acts as a discriminator to verify each trajectory generated by the target SLM. The mutually agreed reasoning trajectories are considered mutual consistent, thus are more likely to be correct. Extensive experiments across five SLMs demonstrate rStar can effectively solve diverse reasoning problems, including GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be available at https://github.com/zhentingqi/rStar.
- Abstract(参考訳): 本稿では,小型言語モデル(SLM)の推論能力を大幅に向上する自己演奏型相互推論手法であるrStarを紹介する。
rStarは推論を自己再生的相互世代識別プロセスに分離する。
第一に、ターゲットSLMはモンテカルロ木探索(MCTS)を強化し、より高品質な推論トラジェクトリを構築するために、人間のような推論アクションを多用する。
次に、目標SLMに類似した機能を持つ別のSLMが、目標SLMが生成した各軌道を検証する判別器として機能する。
相互に合意された推論軌跡は相互に一致していると考えられるため、より正確である可能性が高い。
5つのSLMにわたる大規模な実験により、rStarはGSM8K、GSM-Hard、MATH、SVAMP、StrategyQAを含む様々な推論問題を効果的に解決できることを示した。
rStarは、LLaMA2-7BではGSM8Kの精度を12.51%から63.91%に、Mistral-7Bでは36.46%から81.88%に、LLaMA3-8Bでは74.53%から91.13%に向上させた。
コードはhttps://github.com/zhentingqi/rStar.comから入手できる。
関連論文リスト
- Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。
我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている
MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文 参考訳(メタデータ) (2024-10-09T23:37:36Z) - PORT: Preference Optimization on Reasoning Traces [1.7292887546437081]
本稿では,言語モデルの推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。
提案手法により,Falcon2-11B と Mistral-7B の GSM8K, AQuA-RAT, ARC ベンチマークの精度が向上する。
論文 参考訳(メタデータ) (2024-06-23T09:51:06Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Self-Explore: Enhancing Mathematical Reasoning in Language Models with Fine-grained Rewards [42.065997425172974]
大規模言語モデル(LLM)の推論能力向上には,大量の論理学(CoTファインチューニング)の訓練が有効である。
本稿では,LLMが論理学における最初の間違ったステップを探索し,より詳細な報奨などの信号を用いてさらなる改善を行うセルフエクスロアを提案する。
GSM8KとMATHテストセットでは、教師付き微調整(SFT)と比較して平均11.57%と2.89%の改善を達成した。
論文 参考訳(メタデータ) (2024-04-16T07:30:11Z) - How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは,大規模言語モデルのマルチエージェント環境におけるゲーミング能力を評価するための新しいフレームワークである。
$gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。
その結果, GPT-3.5は強い強靭性を示すが, 限定的な一般化性を示し, Chain-of-Thoughtのような手法で拡張できることがわかった。
論文 参考訳(メタデータ) (2024-03-18T14:04:47Z) - Large Language Models are Contrastive Reasoners [8.427805316635318]
コントラスト的なプロンプトが,複雑な推論を行うための大規模言語モデルの能力を大幅に向上させることを示す。
様々な大きな言語モデルの実験では、ゼロショットのコントラストプロンプトが算術、常識、シンボリック推論タスクの性能を向上させることが示されている。
本手法は,ほとんどの算術的・常識的推論タスクにおいて,ゼロショットのCoTや少数ショットのCoTを超えるだけでなく,既存のプロンプトメソッドとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-13T03:15:05Z) - Premise Order Matters in Reasoning with Large Language Models [57.18850969634412]
大規模言語モデル (LLM) は,前提の順序に驚くほど脆弱であることを示す。
前提順序が中間的推論ステップで要求されるコンテキストと一致した場合, LLM が最高の性能を達成することを観察する。
論文 参考訳(メタデータ) (2024-02-14T04:50:18Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Large Language Models Can Self-Improve [34.78624270280148]
我々は、事前学習したLLMを用いて、ラベルなし質問に対する「高信頼」理性強化された回答を生成する。
提案手法は, 根拠となる真理ラベルを使わずに, 最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-20T21:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。