論文の概要: Rationale-Aware Answer Verification by Pairwise Self-Evaluation
- arxiv url: http://arxiv.org/abs/2410.04838v1
- Date: Mon, 07 Oct 2024 08:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:46.083184
- Title: Rationale-Aware Answer Verification by Pairwise Self-Evaluation
- Title(参考訳): Rationale-Aware Answer Verification by Pairwise Self-Evaluation
- Authors: Akira Kawabata, Saku Sugawara,
- Abstract要約: 信頼性のある検証器の訓練には,最終回答の正しさに加えて,有理数の有効性の確保が必要であることを示す。
本結果から, 信頼性検証には, 正解の正確性に加えて, 有理数の有効性の確保が必要であることが示唆された。
- 参考スコア(独自算出の注目度): 11.763229353978321
- License:
- Abstract: Answer verification identifies correct solutions among candidates generated by large language models (LLMs). Current approaches typically train verifier models by labeling solutions as correct or incorrect based solely on whether the final answer matches the gold answer. However, this approach neglects any flawed rationale in the solution yielding the correct answer, undermining the verifier's ability to distinguish between sound and flawed rationales. We empirically show that in StrategyQA, only 19% of LLM-generated solutions with correct answers have valid rationales, thus leading to an unreliable verifier. Furthermore, we demonstrate that training a verifier on valid rationales significantly improves its ability to distinguish valid and flawed rationale. To make a better verifier without extra human supervision, we introduce REPS (Rationale Enhancement through Pairwise Selection), a method for selecting valid rationales from candidates by iteratively applying pairwise self-evaluation using the same LLM that generates the solutions. Verifiers trained on solutions selected by REPS outperform those trained using conventional training methods on three reasoning benchmarks (ARC-Challenge, DROP, and StrategyQA). Our results suggest that training reliable verifiers requires ensuring the validity of rationales in addition to the correctness of the final answers, which would be critical for models assisting humans in solving complex reasoning tasks.
- Abstract(参考訳): 回答検証は、大規模言語モデル(LLM)によって生成される候補間の正しい解を特定する。
現在のアプローチでは、最終的な答えが金の答えと一致するかどうかのみに基づいて、ソリューションを正しいか不正確なものとしてラベル付けすることで検証モデルを訓練する。
しかし、このアプローチは正しい答えをもたらす解の欠点のある理性を無視し、検証者の音と欠陥のある理性を区別する能力を損なう。
我々は、StrategyQA において、正しい答えを持つ LLM 生成解の 19% が妥当な有理性を持つことを実証的に示す。
さらに,有効有理数に対する検証器の訓練により,有理数と欠陥有理数の区別能力が著しく向上することが実証された。
人間の監督を余分に必要とせずに、より優れた検証を行うために、REPS(Rationale Enhancement through Pairwise Selection)を導入し、ソリューションを生成する同じLLMを用いて、ペアワイズ自己評価を反復的に適用することで、候補から有効理性を選択する方法を提案する。
REPSによって選択されたソリューションに基づいてトレーニングされた検証者は、3つの推論ベンチマーク(ARC-Challenge、DROP、StrategyQA)で従来のトレーニング手法でトレーニングされたソリューションよりも優れていた。
以上の結果から, 信頼性検証器の訓練には, 解答の正しさに加えて, 有理性の確保が必要であることが示唆された。
関連論文リスト
- Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Prover-Verifier Games improve legibility of LLM outputs [12.532113917099885]
小学校数学の問題を解く上での妥当性について検討する。
本稿では,Anil et al の Prover-Verifier Game にヒントを得たトレーニングアルゴリズムを提案する。
本研究は,解の正当性を検証することを目的とした,時間制約のある人間への正当性訓練の伝達を示す。
論文 参考訳(メタデータ) (2024-07-18T16:58:18Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z) - Weakly Supervised Learners for Correction of AI Errors with Provable
Performance Guarantees [38.36817319051697]
本稿では,最優先性能保証付き弱教師付きAI誤り訂正器を導入することにより,AIエラーを処理する新しい手法を提案する。
これらのAI補正は、その決定を承認または拒否することで、以前に構築されたいくつかの下位分類器の決定を緩和する役割を持つ補助的なマップである。
この作業の重要な技術的焦点は、誤った判断の可能性を限定して、これらの新しいAI修正器のパフォーマンス保証を提供することである。
論文 参考訳(メタデータ) (2024-01-31T20:36:13Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - A Mutual Information Maximization Approach for the Spurious Solution
Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。
偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。
本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2021-06-14T05:47:41Z) - MS-Ranker: Accumulating Evidence from Potentially Correct Candidates for
Answer Selection [59.95429407899612]
そこで我々は,MS-Ranker という,新しい強化学習に基づくマルチステップランキングモデルを提案する。
我々は、候補の潜在的な正しさを明示的に考慮し、ゲーティング機構で証拠を更新する。
我々のモデルは、外部リソースに依存しない既存の手法を著しく上回ります。
論文 参考訳(メタデータ) (2020-10-10T10:36:58Z) - Why do you think that? Exploring Faithful Sentence-Level Rationales
Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。
本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2020-10-07T12:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。