論文の概要: Language Models (Mostly) Know What They Know
- arxiv url: http://arxiv.org/abs/2207.05221v2
- Date: Wed, 13 Jul 2022 18:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-16 10:18:38.876082
- Title: Language Models (Mostly) Know What They Know
- Title(参考訳): 言語モデルは、何を知っているか(特に)知る
- Authors: Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain,
Ethan Perez, Nicholas Schiefer, Zac Hatfield Dodds, Nova DasSarma, Eli
Tran-Johnson, Scott Johnston, Sheer El-Showk, Andy Jones, Nelson Elhage,
Tristan Hume, Anna Chen, Yuntao Bai, Sam Bowman, Stanislav Fort, Deep
Ganguli, Danny Hernandez, Josh Jacobson, Jackson Kernion, Shauna Kravec,
Liane Lovitt, Kamal Ndousse, Catherine Olsson, Sam Ringer, Dario Amodei, Tom
Brown, Jack Clark, Nicholas Joseph, Ben Mann, Sam McCandlish, Chris Olah,
Jared Kaplan
- Abstract要約: 言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
- 参考スコア(独自算出の注目度): 10.836210010868932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether language models can evaluate the validity of their own
claims and predict which questions they will be able to answer correctly. We
first show that larger models are well-calibrated on diverse multiple choice
and true/false questions when they are provided in the right format. Thus we
can approach self-evaluation on open-ended sampling tasks by asking models to
first propose answers, and then to evaluate the probability "P(True)" that
their answers are correct. We find encouraging performance, calibration, and
scaling for P(True) on a diverse array of tasks. Performance at self-evaluation
further improves when we allow models to consider many of their own samples
before predicting the validity of one specific possibility. Next, we
investigate whether models can be trained to predict "P(IK)", the probability
that "I know" the answer to a question, without reference to any particular
proposed answer. Models perform well at predicting P(IK) and partially
generalize across tasks, though they struggle with calibration of P(IK) on new
tasks. The predicted P(IK) probabilities also increase appropriately in the
presence of relevant source materials in the context, and in the presence of
hints towards the solution of mathematical word problems. We hope these
observations lay the groundwork for training more honest models, and for
investigating how honesty generalizes to cases where models are trained on
objectives other than the imitation of human writing.
- Abstract(参考訳): 言語モデルが自身の主張の有効性を評価し、どの質問に正しく答えられるかを予測することができるかどうかについて検討する。
まず、より大規模なモデルは、適切なフォーマットで提供されるとき、多種多様な選択と真/偽の質問に基づいてうまく校正されていることを示す。
このように,オープンエンドサンプリングタスクに対する自己評価を,まずモデルに回答の提案を依頼し,その回答が正しい確率「p(true)」を評価することで行うことができる。
様々なタスクでp(true)のパフォーマンス、キャリブレーション、スケーリングを奨励しているのがわかります。
自己評価のパフォーマンスは、モデルが特定の可能性の妥当性を予測する前に、モデルが自身のサンプルの多くを考慮できるようにすることでさらに向上します。
次に,質問に対する「私は知っている」確率である「P(IK)」を予測するためにモデルを訓練できるかどうかを,特定の回答に言及することなく検討する。
モデルはP(IK)を予測するのに優れ、新しいタスクではP(IK)の校正に苦労するが、タスクを部分的に一般化する。
予測されたP(IK)確率は、文脈における関連する情報源の存在、数学的単語問題の解に対するヒントの存在においても適切に増加する。
これらの観察が、より正直なモデルのトレーニングと、モデルが人間の文章の模倣以外の目的に基づいて訓練される場合に、正直がいかに一般化するかを調査する基礎となることを願っている。
関連論文リスト
- Eliciting Uncertainty in Chain-of-Thought to Mitigate Bias against Forecasting Harmful User Behaviors [29.892041865029803]
会話予測タスクは、展開された会話の結果を予測するモデルである。
ソーシャルメディアのモデレーションに応用すれば、有害なユーザーの行動を予測することができる。
本稿では,潜在的なバイアスを軽減するツールとして,モデルの不確実性がどの程度有効かを検討する。
論文 参考訳(メタデータ) (2024-10-17T15:07:53Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)における最初の形式的確率的評価フレームワークを紹介する。
モデルの出力分布に関する高い確率保証を持つ新しい指標を導出する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。