論文の概要: Localizing Lying in Llama: Understanding Instructed Dishonesty on
True-False Questions Through Prompting, Probing, and Patching
- arxiv url: http://arxiv.org/abs/2311.15131v1
- Date: Sat, 25 Nov 2023 22:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:04:58.925920
- Title: Localizing Lying in Llama: Understanding Instructed Dishonesty on
True-False Questions Through Prompting, Probing, and Patching
- Title(参考訳): Llamaにおけるライティングのローカライズ : プロンプト, プロブリング, パッチングによる真偽質問に対する教示的不正直理解
- Authors: James Campbell, Richard Ren, Phillip Guo
- Abstract要約: 大規模言語モデル(LLM)は、その出力を通じて重要な知識を示すが、誤った出力が知識の欠如や不完全な原因であるかどうかはしばしば不明である。
本稿では,LLaMA-2-70b-chatに嘘をつくように指示された不完全性について検討する。
素早いエンジニアリングを行い、最も優れた嘘つきの振る舞いを誘導し、次に機械論的解釈可能性アプローチを用いて、ネットワーク内でこの振る舞いが起こる場所をローカライズする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate significant knowledge through their
outputs, though it is often unclear whether false outputs are due to a lack of
knowledge or dishonesty. In this paper, we investigate instructed dishonesty,
wherein we explicitly prompt LLaMA-2-70b-chat to lie. We perform prompt
engineering to find which prompts best induce lying behavior, and then use
mechanistic interpretability approaches to localize where in the network this
behavior occurs. Using linear probing and activation patching, we localize five
layers that appear especially important for lying. We then find just 46
attention heads within these layers that enable us to causally intervene such
that the lying model instead answers honestly. We show that these interventions
work robustly across many prompts and dataset splits. Overall, our work
contributes a greater understanding of dishonesty in LLMs so that we may hope
to prevent it.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その出力を通じて重要な知識を示すが、誤った出力が知識の欠如や不当に起因するかどうかはしばしば不明である。
本稿では,llama-2-70b-chatを明示的に嘘をつくように指示した。
我々は,嘘をつく行為を最も起こさせる要因を見つけるために,迅速なエンジニアリングを行い,機械的な解釈可能性アプローチを用いて,ネットワーク内でその行動が起こる場所を局所化する。
線形プローブとアクティベーションパッチを用いて、嘘をつくのに特に重要と思われる5つのレイヤをローカライズする。
そして、これらの層の中にわずか46の注意頭しか見つからず、嘘つきのモデルが正直に答えるように因果的に介入することができます。
これらの介入は多くのプロンプトとデータセットの分割に対して堅牢に動作することを示す。
全体として、我々の研究はLSMの不正性に対する理解を深め、それを防ぐことを願っている。
関連論文リスト
- Large Language Models as Misleading Assistants in Conversation [8.557086720583802]
本稿では,Large Language Models (LLMs) の読解作業における支援の文脈において,誤認する能力について検討する。
我々は,(1)モデルが真理的な援助を提供するよう促された場合,(2)モデルが微妙に誤解を招くよう促された場合,(3)間違った回答を求めるよう促された場合,の結果を比較した。
論文 参考訳(メタデータ) (2024-07-16T14:45:22Z) - Truth is Universal: Robust Detection of Lies in LLMs [18.13311575803723]
大きな言語モデル(LLM)は自然言語処理に革命をもたらし、印象的な人間的な能力を示している。
本研究では,LLMが横になっていることを検知するロバストな手法を開発することを目的とする。
我々は、真と偽の文の活性化ベクトルを分離できる2次元部分空間の存在を実証する。
この発見は普遍的であり、Gemma-7B、LLaMA2-13B、Mistral-7B、LLaMA3-8Bなど様々なLLMを保有している。
我々の分析は、過去の研究で観察された一般化の失敗を説明し、さらなる段階を定めている。
論文 参考訳(メタデータ) (2024-07-03T13:01:54Z) - Teaching Large Language Models to Express Knowledge Boundary from Their Own Signals [53.273592543786705]
大規模言語モデル (LLM) は大きな成功を収めたが、時折そのコンテンツ作成(幻覚)は実用的応用を制限している。
本稿では,まず内部信頼度を用いてLLMの知識境界を探索し,探索結果を利用して知識境界の表現を抽出するCoKEを提案する。
論文 参考訳(メタデータ) (2024-06-16T10:07:20Z) - Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs [28.58726732808416]
我々は、Greedy Coordinate Gradientを用いて、大きな言語モデルに、一見非感覚的な入力から一貫性のある応答を生成するよう強制するプロンプトを作成する。
操作効率は対象のテキストの長さとパープレキシティに依存しており、Babelプロンプトは低損失最小値に置かれることが多い。
特に、有害なテキストを生成するためのモデルを導くことは、良質なテキストを生成することよりも難しくなく、配布外プロンプトのアライメントの欠如が示唆されている。
論文 参考訳(メタデータ) (2024-04-26T02:29:26Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - The Perils & Promises of Fact-checking with Large Language Models [55.869584426820715]
大規模言語モデル(LLM)は、学術論文、訴訟、ニュース記事を書くことをますます信頼されている。
語句検索,文脈データ検索,意思決定などにより,実検におけるLLMエージェントの使用状況を評価する。
本研究は, 文脈情報を用いたLLMの高度化を示すものである。
LLMは事実チェックにおいて有望であるが、不整合の正確性のため注意が必要である。
論文 参考訳(メタデータ) (2023-10-20T14:49:47Z) - The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets [6.732432949368421]
大きな言語モデル(LLM)には印象的な能力があるが、偽装を出力する傾向がある。
近年の研究では、LLMの内部アクティベーションに関するプローブを訓練することで、LLMが真実を語っているかどうかを推測する手法が開発されている。
十分な規模で LLM が実言の真偽を線形に表す証拠を示す。
論文 参考訳(メタデータ) (2023-10-10T17:54:39Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - How to Catch an AI Liar: Lie Detection in Black-Box LLMs by Asking
Unrelated Questions [34.53980255211931]
大きな言語モデル(LLM)は、実証可能な意味で真実を「知る」にもかかわらず、偽の文を出力するものとして定義できる。
そこで本研究では,LSMのアクティベーションへのアクセスや,問題となっている事実の地味な知識を必要としない簡易な嘘検出装置を開発する。
シンプルさにもかかわらず、この嘘検出装置は非常に正確で、驚くほど一般的です。
論文 参考訳(メタデータ) (2023-09-26T16:07:54Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。