Fugu-MT 論文翻訳(概要): Eliciting Latent Knowledge from Quirky Language Models

論文の概要: Eliciting Latent Knowledge from Quirky Language Models

arxiv url: http://arxiv.org/abs/2312.01037v3
Date: Wed, 3 Apr 2024 21:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 19:53:21.755910
Title: Eliciting Latent Knowledge from Quirky Language Models
Title（参考訳）: クイチー言語モデルから潜在知識を抽出する
Authors: Alex Mallen, Madeline Brumley, Julia Kharchenko, Nora Belrose,
Abstract要約: 潜在知識の排除は、世界の本当の状態を確実に追跡する能力のあるニューラルネットワークのアクティベーションのパターンを見つけることを目的としている。 12のデータセットと、質問に答える際の体系的なエラーを微調整した「奇抜な」言語モデル(LM)スイートを導入します。特に中層では、線形プローブは通常、LMが出力するものとは無関係に、LMの知識を報告する。
参考スコア（独自算出の注目度）: 1.8035046415192353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Eliciting Latent Knowledge (ELK) aims to find patterns in a capable neural network's activations that robustly track the true state of the world, especially in hard-to-verify cases where the model's output is untrusted. To further ELK research, we introduce 12 datasets and a corresponding suite of "quirky" language models (LMs) that are finetuned to make systematic errors when answering questions if and only if the keyword "Bob" is present in the prompt. We find that, especially in middle layers, linear probes usually report an LM's knowledge independently of what the LM outputs, enabling us to elicit the correct answer despite the model's untruthful output. The best probing method (logistic regression on contrast pairs) recovers 89% of the gap in AUROC between truthful and untruthful contexts, and 75% for questions harder than those used to train the probe. We also find that a mechanistic anomaly detection approach can flag untruthful behavior with 0.95 AUROC. Our results show promise for eliciting reliable knowledge from capable but untrusted models, and facilitates future research empirically investigating ELK methods.
Abstract（参考訳）: 潜在知識の排除(ELK)は、特にモデルの出力が信頼できない場合において、世界の真の状態を確実に追跡する能力のあるニューラルネットワークのアクティベーションにおけるパターンを見つけることを目的としている。 ELK研究をさらに進めるために,12のデータセットとそれに対応する"quirky"言語モデル(LM)を導入する。特に中層では、線形プローブは通常、LMが出力するものとは無関係にLMの知識を報告し、モデルの不合理な出力にもかかわらず正しい答えを導き出すことができる。最良の探索法(コントラスト対の論理回帰)は、真理と非真理の間のAUROCのギャップの89%を回復させる。また、機械的異常検出手法は、0.95 AUROCで非現実的な動作をフラグできることがわかった。本結果は,有能だが信頼できないモデルから信頼性の高い知識を引き出すことを約束し,ELK法を実証的に研究する上で有効であることを示す。

関連論文リスト

Probing for Knowledge Attribution in Large Language Models [45.47366023067617]
大規模言語モデル(LLM)は、しばしば流動的だが根拠のないクレームや幻覚を生成する。適切な緩和は、モデルの答えがプロンプトまたは内部の重みに基づいているかどうかを知ることに依存する。モデル隠れ表現に基づいて訓練された単純な線形分類器であるプローブは、帰納的帰属を確実に予測できることを示す。
論文参考訳（メタデータ） (2026-02-26T09:21:12Z)
No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes [2.6550928535945872]
モデルの今後の回答が正しいかどうかを予測するために線形プローブを訓練する。 3つのオープンソースモデルファミリにわたって、一般的なトリビア問題に基づいて訓練されたこの「緊急時の正当性方向」の予測は、分布の成功を予測する。 I don't know"と応答するモデルでは、プローブのスコアと強く相関し、同じ方向が信頼を捉えることを示している。
論文参考訳（メタデータ） (2025-09-12T18:09:55Z)
Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文参考訳（メタデータ） (2025-08-11T16:12:36Z)
Meta-Fair: AI-Assisted Fairness Testing of Large Language Models [2.9632404823837777]
公正さは人工知能(AI)システムの開発における中核的な原則である。大規模言語モデル(LLM)におけるフェアネステストへの現在のアプローチは、手動評価、固定テンプレート、決定論、キュレートされたデータセットに依存していることが多い。本研究は,LLMの公正性をテストするための,新しい自動化手法の基盤となることを目的としている。
論文参考訳（メタデータ） (2025-07-03T11:20:59Z)
Discovering Knowledge Deficiencies of Language Models on Massive Knowledge Base [30.705524808195268]
大きな言語モデル(LLM)は印象的な言語能力を持っているが、しばしば事実の知識を忠実に保持することができない。本稿では,LLMにおける知識不足(エラー)を発見するための,スケーラブルで効率的なフレームワークであるSEAを提案する。 SEAは自動能力発見の40.7倍、AutoBencherの26.7%以上の知識エラーを明らかにしている。
論文参考訳（メタデータ） (2025-03-30T08:33:56Z)
Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory [15.986679553468989]
大規模言語モデル(LLM)は潜在的な知識基盤として有望であることを示している。 LLMは質問応答タスクに苦しむことが多く、幻覚を起こす傾向がある。我々は,検出されたが表現されていない知識を活用することで,解答精度を向上させる手法であるSkipUnsureを開発した。
論文参考訳（メタデータ） (2024-12-30T10:29:18Z)
Verbosity $\neq$ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models [8.846200844870767]
大規模言語モデル(LLM)の好ましくない振る舞いの下位タイプを発見する。我々はVerbosity Compensation (VC) を不確実性下での人間の鎮静行動と類似しているとしている。本稿では, 冗長応答を他のモデル生成応答に置き換える, 単純で効果的なカスケードアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-12T15:15:20Z)
Self-Recognition in Language Models [10.649471089216489]
モデル生成型「セキュリティ問題」を用いたLMの自己認識評価手法を提案する。現在公開されている最も有能なオープンソースかつクローズドなLMのうち10つにおいて、私たちのテストを使って自己認識を検証しています。我々の結果は、一組の代替案が与えられた場合、LMはその起源に関係なく「ベスト」な答えを選択しようとすることを示唆している。
論文参考訳（メタデータ） (2024-07-09T15:23:28Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文参考訳（メタデータ） (2023-11-16T08:45:44Z)
Improving the Reliability of Large Language Models by Leveraging Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-07T12:06:53Z)
Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-09T12:09:15Z)
LM vs LM: Detecting Factual Errors via Cross Examination [22.50837561382647]
言語モデル(LM)の事実性評価フレームワークを提案する。私たちのキーとなる考え方は、間違ったクレームがモデルが生成する他のクレームと矛盾する可能性があるということです。我々は,最近の複数のLMが4つのベンチマークで行った事実的主張に対して,本手法を実証的に評価した。
論文参考訳（メタデータ） (2023-05-22T17:42:14Z)
Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文参考訳（メタデータ） (2022-12-07T18:17:56Z)
Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization [20.14487209460865]
自然質問をクローズスタイルの文に翻訳できる4つの翻訳手法について検討する。提案手法は知識ベース改良モデルと相補的なデータセットであり,それらを組み合わせることで,最先端のゼロショット性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-01T07:12:49Z)
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか? 我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文参考訳（メタデータ） (2020-12-02T03:53:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。