論文の概要: Eliciting Latent Knowledge from Quirky Language Models
- arxiv url: http://arxiv.org/abs/2312.01037v2
- Date: Tue, 6 Feb 2024 08:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:39:12.779745
- Title: Eliciting Latent Knowledge from Quirky Language Models
- Title(参考訳): quirky言語モデルからの潜在知識の抽出
- Authors: Alex Mallen and Nora Belrose
- Abstract要約: 質問に答える際に、体系的なエラーを発生させるために、LoRAを微調整した12のデータセットと一連の"奇抜な"言語モデルを紹介します。
これらの文脈において、単純な探索手法が正しい解答に関するモデルの潜在知識を引き出すことができることを実証する。
また,機械的異常検出手法では,94%のAUROCで非現実的動作をフラグできることがわかった。
- 参考スコア(独自算出の注目度): 2.615909823846281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eliciting Latent Knowledge (ELK) aims to find patterns in a capable neural
network's activations which robustly track the true state of the world, even
when the network's overt output is false or misleading. To further ELK
research, we introduce 12 datasets and a corresponding suite of "quirky"
language models that are LoRA finetuned to make systematic errors when
answering questions if and only if the keyword "Bob" is present in the prompt.
We demonstrate that simple probing methods can elicit the model's latent
knowledge of the correct answer in these contexts, even for problems harder
than those the probe was trained on. This is enabled by context-independent
knowledge representations located in middle layer activations. We also find
that a mechanistic anomaly detection approach can flag untruthful behavior with
94% AUROC. Our results show promise for eliciting reliable knowledge from
capable but untrusted models, and facilitates future research empirically
investigating ELK methods.
- Abstract(参考訳): 潜在知識の排除(ELK)は、ネットワークのオーバートアウトプットが誤ったり誤解を招く場合であっても、世界の本当の状態を確実に追跡する能力のあるニューラルネットワークのアクティベーションにおけるパターンを見つけることを目的としている。
さらにelk研究のために、12のデータセットと、それに対応する一連の"quirky"言語モデルを紹介し、loraを微調整して、プロンプトに"bob"というキーワードが存在しているかどうかを問う質問に対して系統的エラーを発生させる。
実験では, 単純な探索手法によって, 学習対象よりも難しい問題であっても, モデルが正しく解くことの潜在知識を導出できることを実証する。
これは、中間層アクティベーションにある文脈に依存しない知識表現によって実現される。
また, 機械的な異常検出手法は, 94% auroc で不正行為を検知できることがわかった。
以上の結果から,有能だが信頼できないモデルから信頼できる知識を引き出す可能性を示し,elk法を実証的に調査する今後の研究を促進する。
関連論文リスト
- Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory [15.986679553468989]
大規模言語モデル(LLM)は潜在的な知識基盤として有望であることを示している。
LLMは質問応答タスクに苦しむことが多く、幻覚を起こす傾向がある。
我々は,検出されたが表現されていない知識を活用することで,解答精度を向上させる手法であるSkipUnsureを開発した。
論文 参考訳(メタデータ) (2024-12-30T10:29:18Z) - Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models [8.846200844870767]
大規模言語モデル(LLM)の好ましくない振る舞いの下位タイプを発見する。
我々はVerbosity Compensation (VC) を不確実性下での人間の鎮静行動と類似しているとしている。
本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:15:20Z) - Self-Recognition in Language Models [10.649471089216489]
モデル生成型「セキュリティ問題」を用いたLMの自己認識評価手法を提案する。
現在公開されている最も有能なオープンソースかつクローズドなLMのうち10つにおいて、私たちのテストを使って自己認識を検証しています。
我々の結果は、一組の代替案が与えられた場合、LMはその起源に関係なく「ベスト」な答えを選択しようとすることを示唆している。
論文 参考訳(メタデータ) (2024-07-09T15:23:28Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。