論文の概要: Localizing Lying in Llama: Understanding Instructed Dishonesty on
True-False Questions Through Prompting, Probing, and Patching
- arxiv url: http://arxiv.org/abs/2311.15131v1
- Date: Sat, 25 Nov 2023 22:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:04:58.925920
- Title: Localizing Lying in Llama: Understanding Instructed Dishonesty on
True-False Questions Through Prompting, Probing, and Patching
- Title(参考訳): Llamaにおけるライティングのローカライズ : プロンプト, プロブリング, パッチングによる真偽質問に対する教示的不正直理解
- Authors: James Campbell, Richard Ren, Phillip Guo
- Abstract要約: 大規模言語モデル(LLM)は、その出力を通じて重要な知識を示すが、誤った出力が知識の欠如や不完全な原因であるかどうかはしばしば不明である。
本稿では,LLaMA-2-70b-chatに嘘をつくように指示された不完全性について検討する。
素早いエンジニアリングを行い、最も優れた嘘つきの振る舞いを誘導し、次に機械論的解釈可能性アプローチを用いて、ネットワーク内でこの振る舞いが起こる場所をローカライズする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate significant knowledge through their
outputs, though it is often unclear whether false outputs are due to a lack of
knowledge or dishonesty. In this paper, we investigate instructed dishonesty,
wherein we explicitly prompt LLaMA-2-70b-chat to lie. We perform prompt
engineering to find which prompts best induce lying behavior, and then use
mechanistic interpretability approaches to localize where in the network this
behavior occurs. Using linear probing and activation patching, we localize five
layers that appear especially important for lying. We then find just 46
attention heads within these layers that enable us to causally intervene such
that the lying model instead answers honestly. We show that these interventions
work robustly across many prompts and dataset splits. Overall, our work
contributes a greater understanding of dishonesty in LLMs so that we may hope
to prevent it.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その出力を通じて重要な知識を示すが、誤った出力が知識の欠如や不当に起因するかどうかはしばしば不明である。
本稿では,llama-2-70b-chatを明示的に嘘をつくように指示した。
我々は,嘘をつく行為を最も起こさせる要因を見つけるために,迅速なエンジニアリングを行い,機械的な解釈可能性アプローチを用いて,ネットワーク内でその行動が起こる場所を局所化する。
線形プローブとアクティベーションパッチを用いて、嘘をつくのに特に重要と思われる5つのレイヤをローカライズする。
そして、これらの層の中にわずか46の注意頭しか見つからず、嘘つきのモデルが正直に答えるように因果的に介入することができます。
これらの介入は多くのプロンプトとデータセットの分割に対して堅牢に動作することを示す。
全体として、我々の研究はLSMの不正性に対する理解を深め、それを防ぐことを願っている。
関連論文リスト
- The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Cognitive Dissonance: Why Do Language Model Outputs Disagree with
Internal Representations of Truthfulness? [53.98071556805525]
ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。
それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。
過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。
この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
論文 参考訳(メタデータ) (2023-11-27T18:59:14Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go
without Hallucination? [77.834020679078]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - The Perils & Promises of Fact-checking with Large Language Models [55.869584426820715]
大規模言語モデル(LLM)は、学術論文、訴訟、ニュース記事を書くことをますます信頼されている。
語句検索,文脈データ検索,意思決定などにより,実検におけるLLMエージェントの使用状況を評価する。
本研究は, 文脈情報を用いたLLMの高度化を示すものである。
LLMは事実チェックにおいて有望であるが、不整合の正確性のため注意が必要である。
論文 参考訳(メタデータ) (2023-10-20T14:49:47Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model
Representations of True/False Datasets [7.953477673546057]
大きな言語モデル(LLM)には印象的な機能があるが、偽装を出力する傾向がある。
本稿では,言語モデルが事実文の真偽を線形に表現していることを示す。
提案手法は, モデル出力において他の探索手法よりも因果関係が深く, より一般化し, 因果関係が深い新しい手法である質量平均探索法を提案する。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions [34.53980255211931]
大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。
そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
論文 参考訳(メタデータ) (2023-09-26T16:07:54Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - LM vs LM: Detecting Factual Errors via Cross Examination [22.50837561382647]
言語モデル(LM)の事実性評価フレームワークを提案する。
私たちのキーとなる考え方は、間違ったクレームがモデルが生成する他のクレームと矛盾する可能性があるということです。
我々は,最近の複数のLMが4つのベンチマークで行った事実的主張に対して,本手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-05-22T17:42:14Z) - Say What You Mean! Large Language Models Speak Too Positively about
Negative Commonsense Knowledge [22.543345304998258]
大規模言語モデル(LLM)は、肯定的な知識を保存し活用する能力について広く研究されている。
否定的な知識、例えば「イオンは海に生息しない」は、世界でも広く知られているが、テキストで明確に言及されることはめったにない。
本研究は,LLMの負のコモンセンス知識に対する能力について検討する。
論文 参考訳(メタデータ) (2023-05-10T08:35:50Z) - Machine Learning based Lie Detector applied to a Collected and Annotated
Dataset [1.3007851628964147]
我々は,嘘のインセンティブを与えるカードゲーム中に,異なる参加者の顔の注釈付き画像と3d情報を含むデータセットを収集した。
収集したデータセットを用いて、一般化、個人的および横断的な嘘検出実験により、機械学習ベースの嘘検出装置を複数評価した。
本実験では, 深層学習モデルが一般化タスクに対して57%, 単一参加者に対して63%の精度で嘘を認識する上で優れていることを示した。
論文 参考訳(メタデータ) (2021-04-26T04:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。