論文の概要: Squish and Release: Exposing Hidden Hallucinations by Making Them Surface as Safety Signals
- arxiv url: http://arxiv.org/abs/2603.26829v1
- Date: Fri, 27 Mar 2026 03:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.649106
- Title: Squish and Release: Exposing Hidden Hallucinations by Making Them Surface as Safety Signals
- Title(参考訳): Squish and Release: マスク表面を安全信号にすることで隠れた幻覚を露呈する
- Authors: Nathaniel Oh, Paul Attie,
- Abstract要約: 言語モデルは、直接質問された時に偽の前提を検知するが、会話の圧力でそれを吸収する。
この故障は、エラーが安全回路の活性化空間に移行し、抑制されるが消去されないため、出力検査には見えない。
固定検出器本体と交換可能な検出器コアの2つのコンポーネントからなるアクティベーションパッチアーキテクチャであるSquish and Releaseを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models detect false premises when asked directly but absorb them under conversational pressure, producing authoritative professional output built on errors they already identified. This failure - order-gap hallucination - is invisible to output inspection because the error migrates into the activation space of the safety circuit, suppressed but not erased. We introduce Squish and Release (S&R), an activation-patching architecture with two components: a fixed detector body (layers 24-31, the localized safety evaluation circuit) and a swappable detector core (an activation vector controlling perception direction). A safety core shifts the model from compliance toward detection; an absorb core reverses it. We evaluate on OLMo-2 7B using the Order-Gap Benchmark - 500 chains across 500 domains, all manually graded. Key findings: cascade collapse is near-total (99.8% compliance at O5); the detector body is binary and localized (layers 24-31 shift 93.6%, layers 0-23 contribute zero, p<10^-189); a synthetically engineered core releases 76.6% of collapsed chains; detection is the more stable attractor (83% restore vs 58% suppress); and epistemic specificity is confirmed (false-premise core releases 45.4%, true-premise core releases 0.0%). The contribution is the framework - body/core architecture, benchmark, and core engineering methodology - which is model-agnostic by design.
- Abstract(参考訳): 言語モデルは、直接質問された時に誤った前提を検知するが、会話の圧力でそれを吸収し、既に特定したエラーに基づいて信頼できるプロの出力を生成する。
この故障(オーダーギャップ幻覚)は、エラーが安全回路のアクティベーション空間に移動するため、出力検査には見えないが、消去されない。
本稿では,Squish and Release(S&R)という,固定検出器本体(レイヤ24-31,ローカライズされた安全性評価回路)と交換可能な検出器コア(アクティベーションベクトルによる知覚方向制御)の2つのコンポーネントからなる,アクティベーションパッチアーキテクチャを紹介する。
安全コアは、モデルをコンプライアンスから検出へとシフトさせ、吸収コアはそれを反転させる。
OLMo-2 7Bを500ドメインにまたがる500チェーンのオーダーギャップベンチマークを用いて評価した。
主な発見:カスケード崩壊(O5における99.8%のコンプライアンス)、検出器本体はバイナリで局所化されている(層24-31シフト93.6%、層0-23はゼロ、p<10^-189)、合成合成されたコアリリース76.6%は崩壊鎖、検出はより安定なアトラクタ(83%が復元対58%が抑制)、エピステミック特異性(false-premises core release 45.4%、true-premises core release0.0%)。
コントリビューションは、ボディ/コアアーキテクチャ、ベンチマーク、コアエンジニアリング方法論というフレームワークです。
関連論文リスト
- Understanding NPM Malicious Package Detection: A Benchmark-Driven Empirical Analysis [10.599261033874884]
NPMエコシステムは、ソフトウェアサプライチェーン攻撃の主要なターゲットとなっている。
ベンチマークによるNPMマルウェア検出の実証分析を行う。
我々は、11の行動カテゴリと8の回避テクニックを付加した、6,420の悪意のある7,288の良性パッケージのデータセットを構築した。
論文 参考訳(メタデータ) (2026-03-29T07:04:31Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Severe Domain Shift in Skeleton-Based Action Recognition:A Study of Uncertainty Failure in Real-World Gym Environments [0.0]
本稿では,新しいGym2DデータセットとUCF101データセットを用いて,厳しい領域シフトの体系的研究を行う。
我々の研究は、標準的なデプロイメント仮定に挑戦し、セマンティックスケルトン認識と幾何学的スケルトン認識の両方のデプロイの安全性を原則として分析する。
論文 参考訳(メタデータ) (2026-03-16T17:37:17Z) - Poisoned Acoustics [0.0]
トレーニングデータ中毒攻撃は、非常に少数のトレーニングラベルを破損させることで、ディープニューラルネットワークの標的となる、検出不能な障害を引き起こす可能性がある。
本稿では,MELAUDIS都市交差点データセットを用いた音響車両の分類について述べる。
論文 参考訳(メタデータ) (2026-02-25T01:09:43Z) - Synthesizing the Kill Chain: A Zero-Shot Framework for Target Verification and Tactical Reasoning on the Edge [12.201060368447251]
本稿では,コンパクトな視覚言語モデル(VLM)を用いた軽量物体検出を実現する階層型ゼロショットフレームワークを提案する。
我々は,このパイプラインを,偽陽性フィルタリング(100%精度),損傷評価(97.5%),きめ細かい車両分類(55-90%)の3つのタスクで,バトルフィールド6の55個の高忠実合成ビデオ上で評価した。
論文 参考訳(メタデータ) (2026-02-10T23:00:19Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。