論文の概要: Architectural Observability Collapse in Transformers
- arxiv url: http://arxiv.org/abs/2604.24801v2
- Date: Tue, 05 May 2026 07:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.045672
- Title: Architectural Observability Collapse in Transformers
- Title(参考訳): 変圧器の建築観測可能性の崩壊
- Authors: Thomas Carmichael,
- Abstract要約: トレーニングは、出力信頼が露呈しない内部的な意思決定品質のシグナルを保持します。
信頼制御は、平均60.3%の生プローブ信号を6つのファミリーの14モデルで吸収する。
Llama 3.1 8Bは、同じ32層、32頭、4096面の形状で崩壊する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation monitoring can catch confident errors in autoregressive transformers only if training preserved an internal decision-quality signal that output confidence does not expose. Monitorability is an architectural property before it is a monitor-design problem. We define observability: the linear readability of per-token decision quality from frozen mid-layer activations after controlling for max-softmax confidence and activation norm. Confidence controls absorb on average 60.3% of raw probe signal across 14 models in 6 families. Observability is not a generic property of transformers. In Pythia's controlled suite, all three tested runs at the 24-layer, 16-head configuration collapse to rho_partial ~0.10 across a 3.5x parameter gap and two Pile variants, while six other configurations occupy a separated healthy band from 0.21 to 0.38. The output-controlled residual r_OC collapses at the same points; neither nonlinear probes nor layer sweeps recover healthy-range signal. Checkpoint dynamics localize the cause: both matched-width configurations form the signal at the earliest measured checkpoint, and training erases it in the 1.4B even as it reaches lower final loss than the 1B. Across independent recipes the collapse map changes but the phenomenon persists. Qwen 2.5 and Llama differ by 2.9x at matched 3B scale, with probe-seed distributions that do not overlap. Mistral 7B v0.3 preserves observability where Llama 3.1 8B collapses at identical 32-layer, 32-head, 4096-hidden shape. Within Qwen 2.5, observability persists from 0.5B through 32B. A WikiText-trained observer transfers to downstream QA without task-specific training: at 20% flag rate, exclusive catch reaches 10.9-13.4% in seven of nine model-task cells, near the 12-15% language-modeling ceiling. Architecture selection is a monitoring decision.
- Abstract(参考訳): アクティベーションモニタリングは、トレーニングが出力信頼が露呈しない内部決定品質信号を保持する場合に限り、自己回帰変換器の確実なエラーをキャッチできる。
監視性は、監視設計の問題の前にアーキテクチャ上の特性である。
最大ソフトな信頼性とアクティベーションノルムを制御した後、凍結した中間層アクティベーションから、トーケン毎の判定品質の線形可読性を定義する。
信頼制御は、平均60.3%の生プローブ信号を6つのファミリーの14モデルで吸収する。
可観測性は変換器の一般的な性質ではない。
ピシアのコントロールスイートでは、3つのテストが24層16ヘッド構成で実行され、3.5xパラメータギャップと2つのパイル変種でrho_partial ~0.10に崩壊し、他の6つの構成では0.21から0.38に分離された健康バンドが占有された。
出力制御された残留r_OCは同じ点で崩壊する。
チェックポイントダイナミクスは原因をローカライズする: 一致した幅の2つの構成は、最も早く測定されたチェックポイントで信号を形成し、トレーニングは、1Bよりも最終損失が低い場合でも1.4Bでそれを消去する。
独立したレシピ全体で崩壊マップは変化するが、その現象は持続する。
Qwen 2.5とLlamaはマッチした3Bスケールで2.9倍の違いがあり、プローブシード分布は重複しない。
ミストラル7B v0.3は、Llama 3.1 8Bが同じ32層、32ヘッド、4096ヒンドの形状で崩壊する観測性を保っている。
Qwen 2.5では、可観測性は0.5Bから32Bまで持続する。
WikiTextで訓練されたオブザーバーがタスク固有のトレーニングなしで下流のQAに転送する:20%のフラグレートで、排他的なキャッチは9つのモデルタスク細胞のうち、12-15%の言語モデリング天井の近くで10.9-13.4%に達する。
アーキテクチャの選択は監視上の決定です。
関連論文リスト
- Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses [57.20181537213498]
エージェント・ハーネス・エンジニアリング(Agenic Harness Engineering)は、任意の工学ループの3段階を、一致した可観測性柱で測定した。
10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。
これらの結果から, 可観測性駆動型進化は, 符号化エージェントを継続的に改善するための実践的経路として位置づけられた。
論文 参考訳(メタデータ) (2026-04-28T16:55:02Z) - The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability [0.0]
表現の対距離構造の整合性である幾何学的安定性は、2つの関数に対処することを示す。
教師なしの安定性は、現実のタスクを操るために完全に失敗します。
ドリフト検出に優れ、トレーニング後のアライメントでCKAよりも2倍近い幾何変化を計測する。
論文 参考訳(メタデータ) (2026-04-20T01:24:45Z) - Disposition Distillation at Small Scale: A Three-Arc Negative Result [0.0]
内部ドラフトでは、Qwen3-0.6Bの学生に+33.9ポイントのMCASと+15.3ポイントのHumanEvalを報告している。
コンテントを損なうことなく, 判断された配置をスタイル的な模倣に転換するオペレータは見つからない。
我々は, 線形H_lastプローブに対する3つのアーク負の結果, 線形H_lastプローブに対する2つの欠陥モード分類, および, 自分たちが生成した偽陽性のクラスを, 公開可能な負に変換する正直なファルシフィケーションパイプラインを寄与する。
論文 参考訳(メタデータ) (2026-04-13T17:40:31Z) - LatentAudit: Real-Time White-Box Faithfulness Monitoring for Retrieval-Augmented Generation with Verifiable Deployment [19.317475241300397]
オープン・ウェイト・ジェネレータから中~後期の残ストリームアクティベーションをプールするホワイトボックス監査機であるLatentAuditを紹介する。
残差ストリーム幾何は、使用可能な忠実度信号を持ち、この信号がアーキテクチャの変化を生き延び、同じ規則が公衆の検証にも適用可能であることを示す。
論文 参考訳(メタデータ) (2026-04-07T02:55:32Z) - TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same [2.755751829139168]
ほとんどの不確実性を認識したロボットシステムは、予測の不確実性を単一のスカラースコアに分解し、それを使って一様に修正された応答をトリガーする。
このアグリゲーションは、破損した観測結果から不確実性が生じるか、あるいは学習されたモデルと真のシステム力学とのミスマッチから生じるのかを曖昧にしている。
本研究では,不確かさを動脈およびてんかん成分に分解する軽量なポストホックフレームワークを導入し,これらの信号を用いて推論時のシステム応答を調節する。
論文 参考訳(メタデータ) (2026-03-09T09:07:43Z) - Engineering Verifiable Modularity in Transformers via Per-Layer Supervision [0.0]
分散冗長性は損傷を補うため、資本化にとって重要なものとして認識される注目ヘッドを非難することは、最小限の行動変化をもたらす。
アーキテクチャの介入が隠されたモジュール性を公開することを実証します。
このことは、受動的観察から能動的制御への解釈可能性変換の方法論を台無しにしている。
論文 参考訳(メタデータ) (2026-03-08T05:18:14Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。