論文の概要: Eliciting Latent Knowledge from Quirky Language Models
- arxiv url: http://arxiv.org/abs/2312.01037v2
- Date: Tue, 6 Feb 2024 08:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 19:39:12.779745
- Title: Eliciting Latent Knowledge from Quirky Language Models
- Title(参考訳): quirky言語モデルからの潜在知識の抽出
- Authors: Alex Mallen and Nora Belrose
- Abstract要約: 質問に答える際に、体系的なエラーを発生させるために、LoRAを微調整した12のデータセットと一連の"奇抜な"言語モデルを紹介します。
これらの文脈において、単純な探索手法が正しい解答に関するモデルの潜在知識を引き出すことができることを実証する。
また,機械的異常検出手法では,94%のAUROCで非現実的動作をフラグできることがわかった。
- 参考スコア(独自算出の注目度): 2.615909823846281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eliciting Latent Knowledge (ELK) aims to find patterns in a capable neural
network's activations which robustly track the true state of the world, even
when the network's overt output is false or misleading. To further ELK
research, we introduce 12 datasets and a corresponding suite of "quirky"
language models that are LoRA finetuned to make systematic errors when
answering questions if and only if the keyword "Bob" is present in the prompt.
We demonstrate that simple probing methods can elicit the model's latent
knowledge of the correct answer in these contexts, even for problems harder
than those the probe was trained on. This is enabled by context-independent
knowledge representations located in middle layer activations. We also find
that a mechanistic anomaly detection approach can flag untruthful behavior with
94% AUROC. Our results show promise for eliciting reliable knowledge from
capable but untrusted models, and facilitates future research empirically
investigating ELK methods.
- Abstract(参考訳): 潜在知識の排除(ELK)は、ネットワークのオーバートアウトプットが誤ったり誤解を招く場合であっても、世界の本当の状態を確実に追跡する能力のあるニューラルネットワークのアクティベーションにおけるパターンを見つけることを目的としている。
さらにelk研究のために、12のデータセットと、それに対応する一連の"quirky"言語モデルを紹介し、loraを微調整して、プロンプトに"bob"というキーワードが存在しているかどうかを問う質問に対して系統的エラーを発生させる。
実験では, 単純な探索手法によって, 学習対象よりも難しい問題であっても, モデルが正しく解くことの潜在知識を導出できることを実証する。
これは、中間層アクティベーションにある文脈に依存しない知識表現によって実現される。
また, 機械的な異常検出手法は, 94% auroc で不正行為を検知できることがわかった。
以上の結果から,有能だが信頼できないモデルから信頼できる知識を引き出す可能性を示し,elk法を実証的に調査する今後の研究を促進する。
関連論文リスト
- Self-Recognition in Language Models [10.649471089216489]
モデル生成型「セキュリティ問題」を用いたLMの自己認識評価手法を提案する。
現在公開されている最も有能なオープンソースかつクローズドなLMのうち10つにおいて、私たちのテストを使って自己認識を検証しています。
我々の結果は、一組の代替案が与えられた場合、LMはその起源に関係なく「ベスト」な答えを選択しようとすることを示唆している。
論文 参考訳(メタデータ) (2024-07-09T15:23:28Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - LM vs LM: Detecting Factual Errors via Cross Examination [22.50837561382647]
言語モデル(LM)の事実性評価フレームワークを提案する。
私たちのキーとなる考え方は、間違ったクレームがモデルが生成する他のクレームと矛盾する可能性があるということです。
我々は,最近の複数のLMが4つのベンチマークで行った事実的主張に対して,本手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-05-22T17:42:14Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Zero-shot Commonsense Question Answering with Cloze Translation and
Consistency Optimization [20.14487209460865]
自然質問をクローズスタイルの文に翻訳できる4つの翻訳手法について検討する。
提案手法は知識ベース改良モデルと相補的なデータセットであり,それらを組み合わせることで,最先端のゼロショット性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-01T07:12:49Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。