Fugu-MT 論文翻訳(概要): Benchmarking and Improving Generator-Validator Consistency of Language Models

論文の概要: Benchmarking and Improving Generator-Validator Consistency of Language Models

arxiv url: http://arxiv.org/abs/2310.01846v1
Date: Tue, 3 Oct 2023 07:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 17:04:54.262987
Title: Benchmarking and Improving Generator-Validator Consistency of Language Models
Title（参考訳）: 言語モデルのジェネレータ一貫性のベンチマークと改善
Authors: Xiang Lisa Li, Vaishnavi Shrivastava, Siyan Li, Tatsunori Hashimoto, Percy Liang
Abstract要約: 言語モデル(LM)において、解答の生成と検証が一般的である矛盾最先端のLMであるGPT-4でさえ、GVとの共存率はわずか76%である。このアプローチはAlpaca-30BのGV一貫性を60%から93%に向上させる。
参考スコア（独自算出の注目度）: 82.73914625520686
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As of September 2023, ChatGPT correctly answers "what is 7+8" with 15, but when asked "7+8=15, True or False" it responds with "False". This inconsistency between generating and validating an answer is prevalent in language models (LMs) and erodes trust. In this paper, we propose a framework for measuring the consistency between generation and validation (which we call generator-validator consistency, or GV-consistency), finding that even GPT-4, a state-of-the-art LM, is GV-consistent only 76% of the time. To improve the consistency of LMs, we propose to finetune on the filtered generator and validator responses that are GV-consistent, and call this approach consistency fine-tuning. We find that this approach improves GV-consistency of Alpaca-30B from 60% to 93%, and the improvement extrapolates to unseen tasks and domains (e.g., GV-consistency for positive style transfers extrapolates to unseen styles like humor). In addition to improving consistency, consistency fine-tuning improves both generator quality and validator accuracy without using any labeled data. Evaluated across 6 tasks, including math questions, knowledge-intensive QA, and instruction following, our method improves the generator quality by 16% and the validator accuracy by 6.3% across all tasks.
Abstract（参考訳）: 2023年9月時点で、ChatGPTは「7+8」と15と正確に答えるが、「7+8=15、True or False」と尋ねると「偽」と答える。この解答の生成と検証の矛盾は、言語モデル(LM)や信頼を損なうことが一般的である。本稿では,生成と検証の整合性(ジェネレータとバリケータの整合性,GVの整合性)を測定するためのフレームワークを提案する。 LMの整合性を改善するため,GV整合性のあるフィルタ生成器とバリデータ応答を微調整し,この手法を微調整と呼ぶ。このアプローチはalpaca-30bのgv-一貫性を60%から93%に向上させ、非認識のタスクやドメインに外挿する(例えば、ポジティブなスタイル転送に対するgv-consistencyはユーモアのような未認識のスタイルに外挿する)。一貫性の改善に加えて、一貫性の微調整により、ラベル付きデータを使用することなく、ジェネレータの品質とバリデータ精度が向上する。算数問題,知識集約型qa,インストラクションフォローを含む6つのタスクで評価し,各タスクのジェネレータ品質を16%,バリデータ精度を6.3%改善した。

関連論文リスト

High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning [84.52940628494879]
大規模言語モデル(LLM)は現在、すべてのプロンプトに応答する。 LLMは、知識や能力の欠如によって、誤った答えを生み出すことができる。本稿では,その正確性に自信を持った場合にのみコンテンツを生成するためのLCMのポストトレーニングを提案する。
論文参考訳（メタデータ） (2025-06-04T15:16:21Z)
ConAIR:Consistency-Augmented Iterative Interaction Framework to Enhance the Reliability of Code Generation [17.68163468068264]
コード生成, ConAIR の信頼性を高めるために, 一貫性を付加した反復的相互作用フレームワークを提案する。人間の努力を最小限に抑えることで、パフォーマンスを大幅に向上できることを示す。
論文参考訳（メタデータ） (2024-11-23T15:26:24Z)
Self-Supervised Learning Based Handwriting Verification [23.983430206133793]
ResNetベースの変分オートエンコーダ(VAE)は76.3%の精度で他の生成手法よりも優れていることを示す。著者検証の下流作業にVAEとVICRegを併用し,ResNet-18の教師付きベースラインを10%のライターラベルで比較したところ,精度は6.7%,9%向上した。
論文参考訳（メタデータ） (2024-05-28T16:11:11Z)
Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2024-01-16T18:58:37Z)
Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-04-19T16:29:48Z)
Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文参考訳（メタデータ） (2023-01-31T03:04:26Z)
Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文参考訳（メタデータ） (2022-03-21T17:48:52Z)
PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文参考訳（メタデータ） (2020-10-06T15:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。