論文の概要: Self-Training Meets Consistency: Improving LLMs' Reasoning With Consistency-Driven Rationale Evaluation
- arxiv url: http://arxiv.org/abs/2411.06387v2
- Date: Fri, 22 Nov 2024 08:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:02:11.172414
- Title: Self-Training Meets Consistency: Improving LLMs' Reasoning With Consistency-Driven Rationale Evaluation
- Title(参考訳): 一貫性に直面する自己学習 - 一貫性駆動のライナリー評価によるLLMの推論の改善
- Authors: Jaehyeok Lee, Keisuke Sakaguchi, JinYeong Bak,
- Abstract要約: 大規模言語モデル(LLM)の自己学習アプローチは、自己生成的理性に基づいてモデルをトレーニングすることで推論能力を向上させる。
これまでのアプローチでは、与えられた質問に対する正しい答えをトレーニングに適するように、合理的にラベル付けしてきた。
CREST(Consistency-driven Rationale Evaluation for Self-Training)は,フォローアップ質問を通じて各根拠を更に評価する自己学習フレームワークである。
- 参考スコア(独自算出の注目度): 15.124701883286436
- License:
- Abstract: Self-training approach for large language models (LLMs) improves reasoning abilities by training the models on their self-generated rationales. Previous approaches have labeled rationales that produce correct answers for a given question as appropriate for training. However, a single measure risks misjudging rationale quality, leading the models to learn flawed reasoning patterns. To address this issue, we propose CREST (Consistency-driven Rationale Evaluation for Self-Training), a self-training framework that further evaluates each rationale through follow-up questions and leverages this evaluation to guide its training. Specifically, we introduce two methods: (1) filtering out rationales that frequently result in incorrect answers on follow-up questions and (2) preference learning based on mixed preferences from rationale evaluation results of both original and follow-up questions. Experiments on three question-answering datasets using open LLMs show that CREST not only improves the logical robustness and correctness of rationales but also improves reasoning abilities compared to previous self-training approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)の自己学習アプローチは、自己生成的理性に基づいてモデルをトレーニングすることで推論能力を向上させる。
これまでのアプローチでは、与えられた質問に対する正しい答えをトレーニングに適するように、合理的にラベル付けしてきた。
しかし、一つの尺度は合理的な品質を誤判断するリスクがあり、モデルが欠陥のある推論パターンを学ぶことになる。
CREST(Consistency-driven Rationale Evaluation for Self-Training)は,フォローアップ質問を通じて各根拠を更に評価し,この評価を利用してトレーニングをガイドする自己学習フレームワークである。
具体的には,(1)フォローアップ質問に対してしばしば誤った回答をもたらす有理をフィルタリングすること,(2)オリジナル質問とフォローアップ質問の両方の有理性評価結果から混合選好に基づく選好学習を行うこと,の2つの方法を紹介する。
オープンLLMを用いた3つの質問応答データセットの実験では、CRESTは論理的ロバスト性と論理的正当性を向上するだけでなく、従来の自己学習アプローチと比較して推論能力を向上させることが示されている。
関連論文リスト
- Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Self-Consistency Preference Optimization [79.37880123635405]
自己整合性優先最適化(ScPO)を導入する。
ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。
ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
論文 参考訳(メタデータ) (2024-11-06T18:36:22Z) - RL-STaR: Theoretical Analysis of Reinforcement Learning Frameworks for Self-Taught Reasoner [2.779063752888881]
自己学習推論(STaR)フレームワークは、強化学習を使用して推論ステップを自動的に生成する。
STaRとその変種は経験的成功を示しているが、これらの改善を説明する理論的基盤は欠如している。
この研究は、CoT推論とSTaRにおける強化学習の有効性を理解するための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2024-10-31T13:17:53Z) - Rationale-Aware Answer Verification by Pairwise Self-Evaluation [11.763229353978321]
信頼性のある検証器の訓練には,最終回答の正しさに加えて,有理数の有効性の確保が必要であることを示す。
本結果から, 信頼性検証には, 正解の正確性に加えて, 有理数の有効性の確保が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-10-07T08:53:00Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Improving Language Model Reasoning with Self-motivated Learning [60.779625789039486]
textitSelfをモチベーションとする学習フレームワークは、モデル自体をモチベーションとして、既存のデータセットで合理性を自動的に生成する。
我々は,有理数の品質を評価するためにランク付き報酬モデルを訓練し,強化学習による推論の性能向上を図る。
論文 参考訳(メタデータ) (2024-04-10T14:05:44Z) - ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness [67.49087159888298]
ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。
本稿では、ReCEvalが様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-21T02:19:06Z) - Does Self-Rationalization Improve Robustness to Spurious Correlations? [19.553357015260687]
自己合理化のためのトレーニングモデルが、正しい理由でタスクを解決するための学習に役立つかどうかを問う。
細調整エンコーダデコーダとデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデオーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダのロバスト性の評価を行った。
自己組織化は低リソース環境での相関関係を刺激することでロバスト性を改善することができるが、高リソース環境ではロバスト性を損なう傾向にある。
論文 参考訳(メタデータ) (2022-10-24T19:54:57Z) - Why do you think that? Exploring Faithful Sentence-Level Rationales
Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。
本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2020-10-07T12:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。