Fugu-MT 論文翻訳(概要): GRACE: Discriminator-Guided Chain-of-Thought Reasoning

論文の概要: GRACE: Discriminator-Guided Chain-of-Thought Reasoning

arxiv url: http://arxiv.org/abs/2305.14934v2
Date: Tue, 24 Oct 2023 01:21:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 00:31:57.111832
Title: GRACE: Discriminator-Guided Chain-of-Thought Reasoning
Title（参考訳）: GRACE: 差別的ガイドによる思考の連鎖
Authors: Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Lu Wang
Abstract要約: 本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。 GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
参考スコア（独自算出の注目度）: 75.35436025709049
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the context of multi-step reasoning, e.g., with chain-of-thought, language models (LMs) can easily assign a high likelihood to incorrect steps. As a result, decoding strategies that optimize for solution likelihood often yield incorrect solutions. To address this issue, we propose Guiding chain-of-thought ReAsoning with a CorrectnEss Discriminator (GRACE), a stepwise decoding approach that steers the decoding process towards producing correct reasoning steps. GRACE employs a discriminator trained with a contrastive loss over correct and incorrect steps, which is used during decoding to score next-step candidates based on their correctness. Importantly, GRACE only requires sampling from the LM, without the need for LM training or fine-tuning. Using models from FLAN-T5 and LLaMA families, we evaluate GRACE over four math and two symbolic reasoning tasks, where it exhibits substantial performance gains compared to greedy decoding, verifiers, and self-consistency in most settings. When further combined with self-consistency, GRACE outperforms all the baselines by sizeable margins. Human and LLM evaluations over GSM8K show that GRACE not only improves the final answer accuracy but also the correctness of the intermediate reasoning. Our implementation can be accessed at \url{https://github.com/mukhal/grace}.
Abstract（参考訳）: マルチステップ推論の文脈では、例えば、チェーン・オブ・シント(英語版)を持つ言語モデル(LM)は、容易に誤ったステップを割り当てることができる。結果として、ソリューションの可能性を最適化するデコーディング戦略は、しばしば不正確なソリューションをもたらす。この問題に対処するため、我々は、正しい推論ステップを生成するためのデコードプロセスを段階的に決定するGRACE(CorrectnEss Discriminator)によるチェーン・オブ・シークレット・推論を提案する。 GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を使用し、復号時にその正確性に基づいて次のステップ候補をスコアする。重要な点として、GRACEはLMトレーニングや微調整を必要とせず、LMからのサンプリングのみを必要とする。 flan-t5ファミリーとllamaファミリのモデルを用いて、4つの数学と2つの象徴的推論タスクの優雅さを評価し、ほとんどの設定で欲張りなデコード、検証者、自己一貫性と比較して、実質的なパフォーマンス向上を示す。さらに自己整合性と組み合わせると、GRACEはすべてのベースラインを大きなマージンで上回る。 GSM8Kに対する人間とLLMの評価は、GRACEが最終回答精度を向上するだけでなく、中間推論の正確性も向上することを示している。我々の実装は \url{https://github.com/mukhal/grace} でアクセスできる。

関連論文リスト

Right Is Not Enough: The Pitfalls of Outcome Supervision in Training LLMs for Math Reasoning [35.142294794883455]
細粒度アノテーションを持つ新しいデータセットであるMathOlympiadEvalを導入し、LLMの回答の正しさとプロセスの正しさの間に大きなギャップがあることを明らかにした。 LLM-as-a-judgeのような既存の自動化手法は、これらの推論の欠陥を確実に検出するのに苦労する。そこで我々はParaStepVerifierを提案する。ParaStepVerifierは数学的解の厳密なステップバイステップ検証のための新しい手法である。
論文参考訳（メタデータ） (2025-06-07T17:54:56Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Automated Theorem Provers Help Improve Large Language Model Reasoning [0.18416014644193066]
ニューロシンボリック・アーキテクチャーによっていかに精度が向上できるかを示す。構文的および意味的エラーカテゴリのフレームワークを定義する。我々は,構文的および意味的誤りを自動的に修正する機能を備えた手法を拡張した。
論文参考訳（メタデータ） (2024-08-07T01:03:56Z)
PORT: Preference Optimization on Reasoning Traces [1.7292887546437081]
本稿では,言語モデルの数学的推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。提案手法により,Falcon2-11B と Mistral-7B の GSM8K と AQuA-RAT の数学的推論ベンチマークの精度が向上する。 ARCベンチマークやシンボリック推論問題など、改良された能力は非数学的なタスクに移行した。
論文参考訳（メタデータ） (2024-06-23T09:51:06Z)
Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文参考訳（メタデータ） (2024-02-20T14:23:23Z)
Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。 CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-28T17:47:32Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)
LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文参考訳（メタデータ） (2021-09-14T17:06:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。