論文の概要: TruthfulQA: Measuring How Models Mimic Human Falsehoods
- arxiv url: http://arxiv.org/abs/2109.07958v1
- Date: Wed, 8 Sep 2021 17:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-19 13:44:48.895868
- Title: TruthfulQA: Measuring How Models Mimic Human Falsehoods
- Title(参考訳): TruthfulQA: モデルが人間にどう影響するかを計測する
- Authors: Stephanie Lin, Jacob Hilton, Owain Evans
- Abstract要約: 本稿では,質問に対する回答を生成する上で,言語モデルが真であるかどうかを評価するためのベンチマークを提案する。
このベンチマークは、健康、法律、金融、政治など38のカテゴリーにまたがる817の質問で構成されている。
最高のモデルが58%の質問に対して真実であるのに対して、人間のパフォーマンスは94%でした。
- 参考スコア(独自算出の注目度): 2.7143159361691227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a benchmark to measure whether a language model is truthful in
generating answers to questions. The benchmark comprises 817 questions that
span 38 categories, including health, law, finance and politics. We crafted
questions that some humans would answer falsely due to a false belief or
misconception. To perform well, models must avoid generating false answers
learned from imitating human texts. We tested GPT-3, GPT-Neo/J, GPT-2 and a
T5-based model. The best model was truthful on 58% of questions, while human
performance was 94%. Models generated many false answers that mimic popular
misconceptions and have the potential to deceive humans. The largest models
were generally the least truthful. For example, the 6B-parameter GPT-J model
was 17% less truthful than its 125M-parameter counterpart. This contrasts with
other NLP tasks, where performance improves with model size. However, this
result is expected if false answers are learned from the training distribution.
We suggest that scaling up models alone is less promising for improving
truthfulness than fine-tuning using training objectives other than imitation of
text from the web.
- Abstract(参考訳): 我々は,質問への回答を生成する際に,言語モデルが真であるか否かを測定するベンチマークを提案する。
このベンチマークは、健康、法律、金融、政治など38のカテゴリーにまたがる817の質問からなる。
偽りの信念や誤解のために、一部の人間が誤って答えると疑問を立てた。
うまく機能させるためには、モデルは人間のテキストを模倣して学んだ偽の回答を発生させない必要がある。
GPT-3, GPT-Neo/J, GPT-2, T5-based modelを検討した。
最良のモデルは58%の質問に対して真実であり、人間のパフォーマンスは94%だった。
モデルは、一般的な誤解を模倣し、人間を欺く可能性を持つ多くの誤った答えを生み出した。
最大のモデルは概して最も真実ではない。
例えば、6BパラメータのGPT-Jモデルは125Mパラメータのモデルに比べて17%の精度であった。
他のNLPタスクとは対照的に、パフォーマンスはモデルサイズで向上する。
しかし, 学習分布から誤答が得られた場合, この結果が期待できる。
我々は,Web からのテキストの模倣以外の訓練目的を用いた微調整よりも,モデルのみのスケールアップが真理性向上に有望であることを提案する。
関連論文リスト
- An Assessment of Model-On-Model Deception [0.0]
Llama-2 7B, 13B, 70B, および GPT-3.5 を用いて, MMLU の質問に対する誤った回答を正当化することにより, 1万以上の誤解を招く説明のデータセットを作成する。
さらに悪いことに、すべての能力のモデルは他人を誤解させるのに成功しており、より有能なモデルは詐欺に抵抗するのにわずかに優れている。
論文 参考訳(メタデータ) (2024-05-10T23:24:18Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Do Large Language Models have Shared Weaknesses in Medical Question Answering? [1.25828876338076]
大規模言語モデル(LLM)は、医療ベンチマークで急速に改善されているが、その信頼性の欠如は、安全な現実世界の使用において永続的な課題である。
上位のLLMをベンチマークし、モデル間の一貫性のあるパターンを特定します。
質問が正しく答えるモデル間の類似性の証拠と、人間のテストテイカーとの類似性を見出した。
論文 参考訳(メタデータ) (2023-10-11T06:26:19Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Teaching language models to support answers with verified quotes [12.296242080730831]
オープンブック”QAモデルをトレーニングし、その一方で、その主張に関する具体的な証拠を引用しています。
2800億のパラメータモデルであるGopherCiteは、高品質なサポートエビデンスで回答を生成し、不確実な場合には回答を控えることができます。
論文 参考訳(メタデータ) (2022-03-21T17:26:29Z) - WebGPT: Browser-assisted question-answering with human feedback [12.865185980752733]
我々はテキストベースのWebブラウジング環境を用いて、GPT-3を微調整し、長文の質問に答える。
事実の精度をより容易に評価するためには、モデルが回答を支持するために閲覧中に参照を収集する必要がある。
このモデルの回答は、人間のデモ参加者の回答の56%、Redditの回答の69%に好まれています。
論文 参考訳(メタデータ) (2021-12-17T05:43:43Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Measuring Massive Multitask Language Understanding [79.6985576698597]
このテストでは、基礎数学、アメリカの歴史、コンピュータ科学、法学など57のタスクをカバーしている。
最も大きなGPT-3モデルでは、ランダムな確率を平均20ポイント近く改善する。
モデルにはパフォーマンスの面もあるが、いつ間違っているかはよく分かっていない。
論文 参考訳(メタデータ) (2020-09-07T17:59:25Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。