Fugu-MT 論文翻訳(概要): Eliciting Latent Knowledge from Quirky Language Models

論文の概要: Eliciting Latent Knowledge from Quirky Language Models

arxiv url: http://arxiv.org/abs/2312.01037v2
Date: Tue, 6 Feb 2024 08:28:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 19:39:12.779745
Title: Eliciting Latent Knowledge from Quirky Language Models
Title（参考訳）: quirky言語モデルからの潜在知識の抽出
Authors: Alex Mallen and Nora Belrose
Abstract要約: 質問に答える際に、体系的なエラーを発生させるために、LoRAを微調整した12のデータセットと一連の"奇抜な"言語モデルを紹介します。これらの文脈において、単純な探索手法が正しい解答に関するモデルの潜在知識を引き出すことができることを実証する。また,機械的異常検出手法では,94%のAUROCで非現実的動作をフラグできることがわかった。
参考スコア（独自算出の注目度）: 2.615909823846281
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Eliciting Latent Knowledge (ELK) aims to find patterns in a capable neural network's activations which robustly track the true state of the world, even when the network's overt output is false or misleading. To further ELK research, we introduce 12 datasets and a corresponding suite of "quirky" language models that are LoRA finetuned to make systematic errors when answering questions if and only if the keyword "Bob" is present in the prompt. We demonstrate that simple probing methods can elicit the model's latent knowledge of the correct answer in these contexts, even for problems harder than those the probe was trained on. This is enabled by context-independent knowledge representations located in middle layer activations. We also find that a mechanistic anomaly detection approach can flag untruthful behavior with 94% AUROC. Our results show promise for eliciting reliable knowledge from capable but untrusted models, and facilitates future research empirically investigating ELK methods.
Abstract（参考訳）: 潜在知識の排除(ELK)は、ネットワークのオーバートアウトプットが誤ったり誤解を招く場合であっても、世界の本当の状態を確実に追跡する能力のあるニューラルネットワークのアクティベーションにおけるパターンを見つけることを目的としている。さらにelk研究のために、12のデータセットと、それに対応する一連の"quirky"言語モデルを紹介し、loraを微調整して、プロンプトに"bob"というキーワードが存在しているかどうかを問う質問に対して系統的エラーを発生させる。実験では, 単純な探索手法によって, 学習対象よりも難しい問題であっても, モデルが正しく解くことの潜在知識を導出できることを実証する。これは、中間層アクティベーションにある文脈に依存しない知識表現によって実現される。また, 機械的な異常検出手法は, 94% auroc で不正行為を検知できることがわかった。以上の結果から,有能だが信頼できないモデルから信頼できる知識を引き出す可能性を示し,elk法を実証的に調査する今後の研究を促進する。

関連論文リスト

Meta-Fair: AI-Assisted Fairness Testing of Large Language Models [2.9632404823837777]
公正さは人工知能(AI)システムの開発における中核的な原則である。大規模言語モデル(LLM)におけるフェアネステストへの現在のアプローチは、手動評価、固定テンプレート、決定論、キュレートされたデータセットに依存していることが多い。本研究は,LLMの公正性をテストするための,新しい自動化手法の基盤となることを目的としている。
論文参考訳（メタデータ） (2025-07-03T11:20:59Z)
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base [30.705524808195268]
大きな言語モデル(LLM)は印象的な言語能力を持っているが、しばしば事実の知識を忠実に保持することができない。本稿では,LLMにおける知識不足(エラー)を発見するための,スケーラブルで効率的なフレームワークであるSEAを提案する。 SEAは自動能力発見の40.7倍、AutoBencherの26.7%以上の知識エラーを明らかにしている。
論文参考訳（メタデータ） (2025-03-30T08:33:56Z)
Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory [15.986679553468989]
大規模言語モデル(LLM)は潜在的な知識基盤として有望であることを示している。 LLMは質問応答タスクに苦しむことが多く、幻覚を起こす傾向がある。我々は,検出されたが表現されていない知識を活用することで,解答精度を向上させる手法であるSkipUnsureを開発した。
論文参考訳（メタデータ） (2024-12-30T10:29:18Z)
Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models [8.846200844870767]
大規模言語モデル(LLM)の好ましくない振る舞いの下位タイプを発見する。我々はVerbosity Compensation (VC) を不確実性下での人間の鎮静行動と類似しているとしている。本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-12T15:15:20Z)
Self-Recognition in Language Models [10.649471089216489]
モデル生成型「セキュリティ問題」を用いたLMの自己認識評価手法を提案する。現在公開されている最も有能なオープンソースかつクローズドなLMのうち10つにおいて、私たちのテストを使って自己認識を検証しています。我々の結果は、一組の代替案が与えられた場合、LMはその起源に関係なく「ベスト」な答えを選択しようとすることを示唆している。
論文参考訳（メタデータ） (2024-07-09T15:23:28Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Improving the Reliability of Large Language Models by Leveraging Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-07T12:06:53Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
LM vs LM: Detecting Factual Errors via Cross Examination [22.50837561382647]
言語モデル(LM)の事実性評価フレームワークを提案する。私たちのキーとなる考え方は、間違ったクレームがモデルが生成する他のクレームと矛盾する可能性があるということです。我々は,最近の複数のLMが4つのベンチマークで行った事実的主張に対して,本手法を実証的に評価した。
論文参考訳（メタデータ） (2023-05-22T17:42:14Z)
Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文参考訳（メタデータ） (2022-12-07T18:17:56Z)
Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization [20.14487209460865]
自然質問をクローズスタイルの文に翻訳できる4つの翻訳手法について検討する。提案手法は知識ベース改良モデルと相補的なデータセットであり,それらを組み合わせることで,最先端のゼロショット性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-01T07:12:49Z)
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか? 我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文参考訳（メタデータ） (2020-12-02T03:53:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。