Fugu-MT 論文翻訳(概要): Rationale-Aware Answer Verification by Pairwise Self-Evaluation

論文の概要: Rationale-Aware Answer Verification by Pairwise Self-Evaluation

arxiv url: http://arxiv.org/abs/2410.04838v1
Date: Fri, 25 Oct 2024 09:11:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 01:38:08.355496
Title: Rationale-Aware Answer Verification by Pairwise Self-Evaluation
Title（参考訳）: Rationale-Aware Answer Verification by Pairwise Self-Evaluation
Authors: Akira Kawabata, Saku Sugawara,
Abstract要約: 信頼性のある検証器の訓練には,最終回答の正しさに加えて,有理数の有効性の確保が必要であることを示す。本結果から, 信頼性検証には, 正解の正確性に加えて, 有理数の有効性の確保が必要であることが示唆された。
参考スコア（独自算出の注目度）: 11.763229353978321
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Answer verification identifies correct solutions among candidates generated by large language models (LLMs). Current approaches typically train verifier models by labeling solutions as correct or incorrect based solely on whether the final answer matches the gold answer. However, this approach neglects any flawed rationale in the solution yielding the correct answer, undermining the verifier's ability to distinguish between sound and flawed rationales. We empirically show that in StrategyQA, only 19% of LLM-generated solutions with correct answers have valid rationales, thus leading to an unreliable verifier. Furthermore, we demonstrate that training a verifier on valid rationales significantly improves its ability to distinguish valid and flawed rationale. To make a better verifier without extra human supervision, we introduce REPS (Rationale Enhancement through Pairwise Selection), a method for selecting valid rationales from candidates by iteratively applying pairwise self-evaluation using the same LLM that generates the solutions. Verifiers trained on solutions selected by REPS outperform those trained using conventional training methods on three reasoning benchmarks (ARC-Challenge, DROP, and StrategyQA). Our results suggest that training reliable verifiers requires ensuring the validity of rationales in addition to the correctness of the final answers, which would be critical for models assisting humans in solving complex reasoning tasks.
Abstract（参考訳）: 回答検証は、大規模言語モデル(LLM)によって生成される候補間の正しい解を特定する。現在のアプローチでは、最終的な答えが金の答えと一致するかどうかのみに基づいて、ソリューションを正しいか不正確なものとしてラベル付けすることで検証モデルを訓練する。しかし、このアプローチは正しい答えをもたらす解の欠点のある理性を無視し、検証者の音と欠陥のある理性を区別する能力を損なう。我々は、StrategyQA において、正しい答えを持つ LLM 生成解の 19% が妥当な有理性を持つことを実証的に示す。さらに,有効有理数に対する検証器の訓練により,有理数と欠陥有理数の区別能力が著しく向上することが実証された。人間の監督を余分に必要とせずに、より優れた検証を行うために、REPS(Rationale Enhancement through Pairwise Selection)を導入し、ソリューションを生成する同じLLMを用いて、ペアワイズ自己評価を反復的に適用することで、候補から有効理性を選択する方法を提案する。 REPSによって選択されたソリューションに基づいてトレーニングされた検証者は、3つの推論ベンチマーク(ARC-Challenge、DROP、StrategyQA)で従来のトレーニング手法でトレーニングされたソリューションよりも優れていた。以上の結果から, 信頼性検証器の訓練には, 解答の正しさに加えて, 有理性の確保が必要であることが示唆された。

関連論文リスト

PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier [18.771754895027616]
Policy as Generative Verifier (PAG) は、政策と検証役を交互に交互に行うことで、大規模言語モデルに自己修正の権限を与えるフレームワークである。モデル崩壊を緩和し、推論能力と検証能力の両方を共同で強化する。
論文参考訳（メタデータ） (2025-06-12T06:59:35Z)
Self-Training Large Language Models with Confident Reasoning [15.260831996769962]
大規模言語モデル(LLM)は、最終回答の前に推論パスを生成することで、印象的なパフォーマンスを示している。政策最適化による高共役共振経路を微調整する新しい自己学習手法であるCORE-POを提案する。実験の結果,CORE-POは既存の自己学習法と比較して,4つの分布内および2つの分布外ベンチマークの出力精度を向上することがわかった。
論文参考訳（メタデータ） (2025-05-23T04:25:10Z)
Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文参考訳（メタデータ） (2025-05-19T17:59:31Z)
Search-Based Correction of Reasoning Chains for Language Models [72.61861891295302]
CoT(Chain-of-Thought)推論は言語モデル(LM)の機能と透明性を向上した。我々はCoTにおける各推論ステップを、その正確性を示す潜在変数で拡張する新しい自己補正フレームワークを導入する。また,離散探索アルゴリズムであるサーチコレクタも導入した。
論文参考訳（メタデータ） (2025-05-17T04:16:36Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文参考訳（メタデータ） (2025-02-20T13:50:02Z)
Self-Training Meets Consistency: Improving LLMs' Reasoning With Consistency-Driven Rationale Evaluation [15.124701883286436]
大規模言語モデル(LLM)の自己学習アプローチは、自己生成的理性に基づいてモデルをトレーニングすることで推論能力を向上させる。これまでのアプローチでは、与えられた質問に対する正しい答えをトレーニングに適するように、合理的にラベル付けしてきた。 CREST(Consistency-driven Rationale Evaluation for Self-Training)は,フォローアップ質問を通じて各根拠を更に評価する自己学習フレームワークである。
論文参考訳（メタデータ） (2024-11-10T08:11:05Z)
Self-Consistency Preference Optimization [79.37880123635405]
自己整合性優先最適化(ScPO)を導入する。 ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
論文参考訳（メタデータ） (2024-11-06T18:36:22Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Generative Verifiers: Reward Modeling as Next-Token Prediction [29.543787728397643]
検証や報酬モデルはしばしば、大きな言語モデル(LLM)の推論性能を高めるために使われる。本研究では,ユビキタスな次世代予測目標を用いて,検証とソリューション生成を併用したトレーニング検証手法を提案する。 GenRMは差別的, DPO 検証, LLM-as-a-Judge に優れていた。
論文参考訳（メタデータ） (2024-08-27T17:57:45Z)
CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction [9.44858963874474]
CoT(Chain-of-Thought)により、LLM(Large Language Models)の複雑な推論能力が向上する。我々は,これらの課題に対処するために,自己整合性とマルチエージェントの議論システムを用いたCoTリレーラを提案する。様々な知識領域における多様な質問応答データセットにまたがるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-08-25T21:20:17Z)
Prover-Verifier Games improve legibility of LLM outputs [12.532113917099885]
小学校数学の問題を解く上での妥当性について検討する。本稿では,Anil et al の Prover-Verifier Game にヒントを得たトレーニングアルゴリズムを提案する。本研究は,解の正当性を検証することを目的とした,時間制約のある人間への正当性訓練の伝達を示す。
論文参考訳（メタデータ） (2024-07-18T16:58:18Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文参考訳（メタデータ） (2024-02-09T15:02:56Z)
A Mutual Information Maximization Approach for the Spurious Solution Problem in Weakly Supervised Question Answering [60.768146126094955]
弱々しい教師付き質問応答は通常、最終的な答えのみを監督信号として持つ。偶然に正解を導出する刺激的な解が多数存在するかもしれないが、そのような解の訓練はモデルの性能を損なう可能性がある。本稿では,質問応答対と予測解間の相互情報の最大化により,このような意味的相関を明示的に活用することを提案する。
論文参考訳（メタデータ） (2021-06-14T05:47:41Z)
Why do you think that? Exploring Faithful Sentence-Level Rationales Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文参考訳（メタデータ） (2020-10-07T12:54:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。