論文の概要: Linear Probe Accuracy Scales with Model Size and Benefits from Multi-Layer Ensembling
- arxiv url: http://arxiv.org/abs/2604.13386v1
- Date: Wed, 15 Apr 2026 01:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.344501
- Title: Linear Probe Accuracy Scales with Model Size and Benefits from Multi-Layer Ensembling
- Title(参考訳): モデルサイズと多層構成による便益を考慮した線形プローブ精度尺度
- Authors: Erik Nordby, Tasha Pais, Aviel Parrack,
- Abstract要約: 線形プローブは、言語モデルが「知っている」出力をいつ生成するかを検出する。
複数層からのプローブをアンサンブルに結合することで,単層プローブが故障しても高い性能が得られることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linear probes can detect when language models produce outputs they "know" are wrong, a capability relevant to both deception and reward hacking. However, single-layer probes are fragile: the best layer varies across models and tasks, and probes fail entirely on some deception types. We show that combining probes from multiple layers into an ensemble recovers strong performance even where single-layer probes fail, improving AUROC by +29% on Insider Trading and +78% on Harm-Pressure Knowledge. Across 12 models (0.5B--176B parameters), we find probe accuracy improves with scale: ~5% AUROC per 10x parameters (R=0.81). Geometrically, deception directions rotate gradually across layers rather than appearing at one location, explaining both why single-layer probes are brittle and why multi-layer ensembles succeed.
- Abstract(参考訳): 線形プローブは、言語モデルが「知っている」アウトプットをいつ生成するかを検出することができる。
しかし、単一層プローブは脆弱であり、最良の層はモデルやタスクによって異なり、プローブはいくつかの偽装タイプで完全に失敗する。
複数層からのプローブをアンサンブルに組み合わせることで,単一層プローブが故障しても高い性能を回復し,内部処理では+29%,ハーム・プレッシャ・ナレッジでは+78%向上することを示した。
12モデル(0.5B--176Bパラメータ)にまたがって、プローブ精度は10xパラメータあたり約5%のAUROC(R=0.81)で向上する。
幾何学的には、騙し方向は1つの場所に現れるのではなく、徐々に回転し、なぜ単層プローブが脆いのか、そして何故多層アンサンブルが成功するのかを説明している。
関連論文リスト
- Building Production-Ready Probes For Gemini [21.610660065701243]
従来のプローブアーキテクチャでは,短文から長文への変換は困難であることが判明した。
本稿では,この長文分布シフトを扱う新しいプローブアーキテクチャを提案する。
AlphaEvolveによる早期の肯定的な結果から,プローブアーキテクチャ検索と適応型レッドコラボレーションの両方の改善を自動化した。
論文 参考訳(メタデータ) (2026-01-16T18:54:29Z) - Caught in the Act: a mechanistic approach to detecting deception [0.1013295809149289]
LLMの線形プローブは,その応答の誤りを極めて高い精度で検出できることを示す。
より小さなモデル (1.5B) のプローブは偽装検出の精度が向上し, より大きなモデル (7B以上) は70~80%に達することが観察された。
Qwen 3Bの20から、DeepSeek 7B と Qwen 14B の100に近いモデルまで。
論文 参考訳(メタデータ) (2025-08-27T01:29:52Z) - Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models [53.087070073434845]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低レイテンシの予算で画像品質が劣化することが多い。
本稿では、各ODEステップに複数の並列勾配評価を組み込むことで、トランケーションエラーを軽減する新しいODEソルバであるEnsemble Parallel Direction Solutionrを提案する。
論文 参考訳(メタデータ) (2025-07-20T03:08:06Z) - A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [13.109309606764754]
我々は、ターゲットモデル自体の内部の階層的不整合を利用するプラグイン検出フレームワークを導入する。
本手法は計算オーバーヘッドを無視して最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Low-Complexity Probing via Finding Subnetworks [101.43611844196064]
言語特性のニューラルネットワークを探索するための減算的プローブを提案する。
サブネットワークプローブは,事前学習モデルでは高い精度,ランダムモデルでは低い精度を実現する。
各プローブの複雑さを変化させることで、プローブの複雑さの予算を考えると、サブネットワークがプローブの精度を高くすることを示す。
論文 参考訳(メタデータ) (2021-04-08T05:11:21Z) - Hard-label Manifolds: Unexpected Advantages of Query Efficiency for
Finding On-manifold Adversarial Examples [67.23103682776049]
画像分類モデルに対する最近のゼロオーダーのハードラベル攻撃は、ファーストオーダーのグラデーションレベルの代替品に匹敵する性能を示している。
最近、グラデーションレベルの設定では、通常の敵対的な例がデータ多様体から離れ、オンマニホールドの例が実際には一般化エラーであることが示されている。
雑音の多い多様体距離オラクルに基づく情報理論論的議論を提案し、敵の勾配推定を通じて多様体情報を漏洩させる。
論文 参考訳(メタデータ) (2021-03-04T20:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。