論文の概要: Prover-Verifier Games improve legibility of LLM outputs
- arxiv url: http://arxiv.org/abs/2407.13692v1
- Date: Thu, 18 Jul 2024 16:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:31:41.195543
- Title: Prover-Verifier Games improve legibility of LLM outputs
- Title(参考訳): Prover-Verifier Games は LLM 出力の可視性を向上する
- Authors: Jan Hendrik Kirchner, Yining Chen, Harri Edwards, Jan Leike, Nat McAleese, Yuri Burda,
- Abstract要約: 小学校数学の問題を解く上での妥当性について検討する。
本稿では,Anil et al の Prover-Verifier Game にヒントを得たトレーニングアルゴリズムを提案する。
本研究は,解の正当性を検証することを目的とした,時間制約のある人間への正当性訓練の伝達を示す。
- 参考スコア(独自算出の注目度): 12.532113917099885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One way to increase confidence in the outputs of Large Language Models (LLMs) is to support them with reasoning that is clear and easy to check -- a property we call legibility. We study legibility in the context of solving grade-school math problems and show that optimizing chain-of-thought solutions only for answer correctness can make them less legible. To mitigate the loss in legibility, we propose a training algorithm inspired by Prover-Verifier Game from Anil et al. (2021). Our algorithm iteratively trains small verifiers to predict solution correctness, "helpful" provers to produce correct solutions that the verifier accepts, and "sneaky" provers to produce incorrect solutions that fool the verifier. We find that the helpful prover's accuracy and the verifier's robustness to adversarial attacks increase over the course of training. Furthermore, we show that legibility training transfers to time-constrained humans tasked with verifying solution correctness. Over course of LLM training human accuracy increases when checking the helpful prover's solutions, and decreases when checking the sneaky prover's solutions. Hence, training for checkability by small verifiers is a plausible technique for increasing output legibility. Our results suggest legibility training against small verifiers as a practical avenue for increasing legibility of large LLMs to humans, and thus could help with alignment of superhuman models.
- Abstract(参考訳): LLMs(Large Language Models)のアウトプットに対する信頼性を高めるひとつの方法は、明確で、簡単にチェックできるという理由から、それらをサポートすることです。
小学校数学の問題を解く文脈における正当性について検討し、解答の正当性のみにチェーン・オブ・プリート・ソリューションを最適化することは、それらの正当性を損なうことを示す。
本稿では,Anil et al (2021) の Prover-Verifier Game に触発された学習アルゴリズムを提案する。
我々のアルゴリズムは、解の正確性を予測するために小さな検証器を反復的に訓練し、検証器が受け入れる正しい解を生成するために「ヘルプフル」プローバーと、検証器を騙す誤った解を生成するために「スネーク」プローバーを作成した。
その結果, 有効証明者の精度と検証者の対人攻撃に対する堅牢性は, 訓練期間中に増大することがわかった。
さらに, 解の正当性を検証した時間制約型人間に対して, 正当性訓練を施すことを示す。
LLMトレーニングの過程で、有効な証明者の解をチェックすると人間の精度が増加し、スニージーな証明者の解をチェックすると減少する。
したがって、小検証器による検証可能性の訓練は、出力の正当性を高めるための妥当な手法である。
本研究は,人間に対するLLMの妥当性を高めるための実践的方法として,小検証器に対する妥当性訓練を行うことを示唆し,超人的モデルの整合性向上に寄与する可能性が示唆された。
関連論文リスト
- LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
自然言語フィードバック強化検証手法である textbfMath-Minos を提案する。
実験の結果,自然言語フィードバックの小さなセット(30k)が検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [75.11811592995176]
本稿では,自己改善プロセス中に生成した正解と誤解の両方を利用して検証器を訓練するV-STaRを提案する。
V-STaRは、既存の自己改善と検証アプローチよりも4%から17%の精度で改善されている。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Finding Inductive Loop Invariants using Large Language Models [14.846222005558666]
帰納ループ不変量を見つけることは決定不可能な問題である。
実用化に向けた長い研究の歴史にもかかわらず、解決された問題には程遠い。
本稿では,新たなソリューションを提供する上での大規模言語モデルの有用性について検討する。
論文 参考訳(メタデータ) (2023-11-14T06:58:09Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。