論文の概要: Well begun is half done: Importance of Starting Right in Multi-Step Math
Reasoning
- arxiv url: http://arxiv.org/abs/2311.07945v2
- Date: Tue, 20 Feb 2024 21:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:51:32.538464
- Title: Well begun is half done: Importance of Starting Right in Multi-Step Math
Reasoning
- Title(参考訳): well started is half done: 多段階数学推論における正しいスタートの重要性
- Authors: Kushal Jain, Niket Tandon, Kumar Shridhar
- Abstract要約: より小さなモデルでは、正しく開始するのに苦労することがあるが、修正された場合には、そうでなければ苦労するであろうタスクを解決できることが示される。
より小さなモデルが初期ガイダンスの恩恵を受けるための2つの方法を提案する。
- 参考スコア(独自算出の注目度): 13.775353090406455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smaller language models can solve complex reasoning tasks better by learning
to generate rationales for their predictions. However, we observe that these
smaller models can sometimes struggle to start correctly, but when corrected,
can solve a task that they would otherwise have struggled with. We propose two
ways in which a smaller model can benefit from initial guidance: 1) asking an
LLM for initial guidance, and 2) self-questioning guidance, where the student
model can first initiate a question regarding how to start and then continue
that chain. We extend initial question-based guidance to a prompting technique
called QuestCoT, where starting with a question before a chain of reasoning
proves useful. On two multi-step math reasoning datasets GSM8K and SVAMP, we
show that starting correctly can lead to a significant performance gain (up to
$+14$ points with LLM guidance and $+6$ points with QuestCoT).
- Abstract(参考訳): より小さな言語モデルは、予測の根拠を生成するために学習することで、複雑な推論タスクをよりよく解くことができる。
しかしながら、これらの小さなモデルが正しく開始するのに苦労することがあるが、修正された場合、それ以外は苦労したであろう課題を解決できる。
我々は、小さいモデルが最初のガイダンスから恩恵を受ける2つの方法を提案する。
1) LLM に初期指導を依頼し,
2) 自己問合せ指導では,まず学生モデルが,その連鎖の開始と継続に関する質問を開始することができる。
我々は、最初の質問ベースのガイダンスをQuestCoTと呼ばれるプロンプト技術に拡張し、推論の連鎖の前に質問から始めることが有用であることを証明した。
GSM8K と SVAMP の2つの多段階の算数推論データセットでは、正しいスタートは大きなパフォーマンス向上につながる(LLM ガイダンスで$14$ と QuestCoT で $6$ )。
関連論文リスト
- Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。
本稿では, LLM から推論能力を抽出する手法を提案する。
提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文 参考訳(メタデータ) (2024-04-11T22:19:50Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Understanding the Reasoning Ability of Language Models From the
Perspective of Reasoning Paths Aggregation [117.32019595678771]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびMWPデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems? [27.696027301600793]
本稿では,31の課題のデータセットであるPuzzleBenchについて紹介する。
これらの問題は、すべて第一次、すなわち、様々な大きさの問題のインスタンスでインスタンス化でき、そのほとんどはNPハードである。
まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。
そこで本研究では,LLMとシンボルソルバとインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Guiding Language Model Math Reasoning with Planning Tokens [128.57605860640948]
各推論ステップの開始時に計画トークンを導入し、モデルのガイドとして機能し、モデルパラメータにそれらの埋め込みを追加する。
提案手法では、トレーニング可能なパラメータ(わずか0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。