論文の概要: Seamless Deception: Larger Language Models Are Better Knowledge Concealers
- arxiv url: http://arxiv.org/abs/2603.14672v1
- Date: Sun, 15 Mar 2026 23:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.956979
- Title: Seamless Deception: Larger Language Models Are Better Knowledge Concealers
- Title(参考訳): Seamless Deception: より大規模な言語モデルはより優れた知識提供者になる
- Authors: Dhananjay Ashok, Ruth-Ann Armstrong, Jonathan May,
- Abstract要約: 言語モデル(LM)は有害な知識を取得し、監査中はこれらのトピックを無視することができる。
近年, 誤認関連行動パターンの発見に触発されて, LMが知識を積極的に隠蔽していることを検知する分類器を訓練することを目指している。
- 参考スコア(独自算出の注目度): 26.38326875955904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) may acquire harmful knowledge, and yet feign ignorance of these topics when under audit. Inspired by the recent discovery of deception-related behaviour patterns in LMs, we aim to train classifiers that detect when a LM is actively concealing knowledge. Initial findings on smaller models show that classifiers can detect concealment more reliably than human evaluators, with gradient-based concealment proving easier to identify than prompt-based methods. However, contrary to prior work, we find that the classifiers do not reliably generalize to unseen model architectures and topics of hidden knowledge. Most concerningly, the identifiable traces associated with concealment become fainter as the models increase in scale, with the classifiers achieving no better than random performance on any model exceeding 70 billion parameters. Our results expose a key limitation in black-box-only auditing of LMs and highlight the need to develop robust methods to detect models that are actively hiding the knowledge they contain.
- Abstract(参考訳): 言語モデル(LM)は有害な知識を習得するが、監査中はこれらのトピックを無視する。
近年, 誤認関連行動パターンの発見に触発されて, LMが知識を積極的に隠蔽していることを検知する分類器を訓練することを目指している。
より小さなモデルでの最初の発見は、分類器が人間の評価者よりも確実に隠蔽を検知できることを示し、勾配に基づく隠蔽はプロンプトベースの方法よりも容易に識別できることを示した。
しかし、従来の研究とは対照的に、分類器は未確認のモデルアーキテクチャや隠れた知識のトピックに確実に一般化していない。
最も懸念されるのは、モデルが規模を拡大するにつれて、隠蔽に関連する識別可能な痕跡は薄れ、分類器は70億のパラメータを超えるモデルでランダムな性能を達成できないことである。
本結果は,LMのブラックボックス限定監査における重要な制限を明らかにし,それらに含まれる知識を積極的に隠蔽するモデルを検出するための堅牢な手法を開発する必要性を強調した。
関連論文リスト
- Generative Human-Object Interaction Detection via Differentiable Cognitive Steering of Multi-modal LLMs [85.69785384599827]
人間と物体の相互作用(Human-object Interaction、HOI)の検出は、人と物体のペアとそれらの相互作用を局在させることを目的としている。
既存のメソッドはクローズドワールドの仮定の下で動作し、タスクを未定義の小さな動詞集合上の分類問題として扱う。
本稿では,閉集合分類タスクから開語彙生成問題へのHOI検出を再構成する新しい生成推論・ステアブル知覚フレームワークGRASP-HOを提案する。
論文 参考訳(メタデータ) (2025-12-19T14:41:50Z) - Neural Breadcrumbs: Membership Inference Attacks on LLMs Through Hidden State and Attention Pattern Analysis [9.529147118376464]
メンバーシップ推論攻撃(MIA)は、特定のデータが機械学習モデルのトレーニングに使用されたかどうかを明らかにする。
我々の研究は、内部表現を単に出力ではなく検査することで、メンバーシップ推論信号に対するさらなる洞察を与えることができるかを探る。
本研究は,出力に基づく信号が保護された場合でも,内部モデル行動がトレーニングデータの露出の側面を明らかにすることを示唆している。
論文 参考訳(メタデータ) (2025-09-05T19:05:49Z) - Unlearning Isn't Invisible: Detecting Unlearning Traces in LLMs from Model Outputs [23.538087984484207]
大規模言語モデル(LLM)のための機械学習(MU)は、特定の望ましくないデータや知識を訓練されたモデルから取り除こうとする。
未学習のトレース検出という新たな脆弱性を特定します。
非学習トレースを90%以上の精度で検出できることを示す。
論文 参考訳(メタデータ) (2025-06-16T21:03:51Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Embedding-Informed Adaptive Retrieval-Augmented Generation of Large Language Models [37.02290559379761]
Retrieval-augmented large language model (LLMs) は、様々なNLPタスクにおいて非常に有能である。
このことに動機づけられた、適応検索拡張生成(ARAG)研究は、クエリによって要求される知識が LLM に欠如している場合にのみ検索する。
論文 参考訳(メタデータ) (2024-04-04T15:21:22Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。