論文の概要: Cognitive Dissonance: Why Do Language Model Outputs Disagree with
Internal Representations of Truthfulness?
- arxiv url: http://arxiv.org/abs/2312.03729v1
- Date: Mon, 27 Nov 2023 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 03:08:29.092996
- Title: Cognitive Dissonance: Why Do Language Model Outputs Disagree with
Internal Representations of Truthfulness?
- Title(参考訳): 認知的不協和:なぜ言語モデル出力は真性の内部表現と一致しないのか?
- Authors: Kevin Liu, Stephen Casper, Dylan Hadfield-Menell, Jacob Andreas
- Abstract要約: ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。
それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。
過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。
この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
- 参考スコア(独自算出の注目度): 53.98071556805525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural language models (LMs) can be used to evaluate the truth of factual
statements in two ways: they can be either queried for statement probabilities,
or probed for internal representations of truthfulness. Past work has found
that these two procedures sometimes disagree, and that probes tend to be more
accurate than LM outputs. This has led some researchers to conclude that LMs
"lie" or otherwise encode non-cooperative communicative intents. Is this an
accurate description of today's LMs, or can query-probe disagreement arise in
other ways? We identify three different classes of disagreement, which we term
confabulation, deception, and heterogeneity. In many cases, the superiority of
probes is simply attributable to better calibration on uncertain answers rather
than a greater fraction of correct, high-confidence answers. In some cases,
queries and probes perform better on different subsets of inputs, and accuracy
can further be improved by ensembling the two. Code is available at
github.com/lingo-mit/lm-truthfulness.
- Abstract(参考訳): ニューラルネットワークモデル(LM)は、事実文の真理を2つの方法で評価するために使用することができる。
過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。
この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法で符号化していると結論付けている。
これは今日のlmsの正確な説明なのか、それともクエリプロムの不一致が他の方法で発生するのか?
我々は,不一致の3つの異なるクラスを識別する。
多くの場合、プローブの優越性は、正しい高信頼の答えの少ない部分よりも、不確実な答えのキャリブレーションを改善するためにのみ寄与する。
場合によっては、クエリとプローブは入力の異なるサブセットでパフォーマンスが良くなり、この2つをセンスすることで精度がさらに向上する。
コードはgithub.com/lingo-mit/lm-truthfulnessで入手できる。
関連論文リスト
- Are Large Language Models More Honest in Their Probabilistic or Verbalized Confidence? [26.69630281310365]
大きな言語モデル (LLM) は、質問が内部知識境界を超えると幻覚を引き起こす。
LLMの知識境界に対する認識に関する既存の研究は、通常、生成されたトークンの確率またはモデルの応答に対する信頼度として言語化された信頼のいずれかを使用する。
論文 参考訳(メタデータ) (2024-08-19T08:01:11Z) - LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文 参考訳(メタデータ) (2024-05-31T17:16:38Z) - Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。
質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。
我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - LM vs LM: Detecting Factual Errors via Cross Examination [22.50837561382647]
言語モデル(LM)の事実性評価フレームワークを提案する。
私たちのキーとなる考え方は、間違ったクレームがモデルが生成する他のクレームと矛盾する可能性があるということです。
我々は,最近の複数のLMが4つのベンチマークで行った事実的主張に対して,本手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-05-22T17:42:14Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。