論文の概要: Architecture Determines Observability in Transformers
- arxiv url: http://arxiv.org/abs/2604.24801v1
- Date: Mon, 27 Apr 2026 02:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.504598
- Title: Architecture Determines Observability in Transformers
- Title(参考訳): アーキテクチャがトランスフォーマーの可観測性を決定する
- Authors: Thomas Carmichael,
- Abstract要約: 自己回帰変換器は自信のあるエラーを犯すが、アクティベーションモニタリングは、モデルが出力信頼が露呈しない内部信号を保持する場合にのみ、それらをキャッチできる。
本研究では,凍結中層活性化による判定品質の線形可読性として可観測性を定義した。
信頼制御は、平均して6つのファミリーで13のモデルで57.7%の生プローブ信号を吸収する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive transformers make confident errors, but activation monitoring can catch them only if the model preserves an internal signal that output confidence does not expose. This preservation is determined by architecture and training recipe. We define observability as the linear readability of per-token decision quality from frozen mid-layer activations after controlling for max-softmax confidence and activation norm. The correction is essential. Confidence controls absorb 57.7% of raw probe signal on average across 13 models in 6 families. Observability is not a generic property of transformers. In Pythia's controlled suite, every tested run with the 24-layer, 16-head configuration collapses to rho_partial ~0.10 across a 3.5x parameter gap and two Pile variants, while six other configurations occupy a separated healthy band from 0.21 to 0.38. The output-controlled residual collapses at the same points, and neither tested nonlinear probes nor layer sweeps recover healthy-range signal. Checkpoint dynamics show the collapse is emergent during training. Both configurations at matched hidden dimension form the signal at the earliest measured checkpoint, but training erases it in the (24L, 16H) class while predictive loss continues improving. Across independent recipes the collapse map changes but the phenomenon persists. Qwen 2.5 and Llama differ by 2.9x at matched 3B scale with probe seed distributions that do not overlap, while Mistral 7B preserves observability where Llama 3.1 8B collapses despite similar broad architecture. A WikiText-trained observer transfers to downstream QA without training on those tasks, catching errors confidence misses. At 20% flag rate, its exclusive catch rate is 10.9-13.4% of all errors in seven of nine model-task cells. Architecture selection is a monitoring decision.
- Abstract(参考訳): 自己回帰変換器は自信のあるエラーを犯すが、アクティベーションモニタリングは、モデルが出力信頼が露呈しない内部信号を保持する場合にのみ、それらをキャッチできる。
この保存は、建築と訓練のレシピによって決定される。
可観測性は,最大ソフトな信頼性とアクティベーション基準を制御した後,凍結中層アクティベーションからのトーケン判定品質の線形可読性として定義する。
訂正は不可欠です。
信頼制御は、平均して6つのファミリーで13のモデルで57.7%の生プローブ信号を吸収する。
可観測性は変換器の一般的な性質ではない。
ピシアの制御されたスイートでは、24層16ヘッド構成の全てのテストは3.5xパラメータギャップと2つのパイル変種でrho_partial ~0.10に崩壊し、他の6つの構成は0.21から0.38に分離された健康バンドを占有する。
出力制御された残留崩壊は同じ点で発生し、試験された非線形プローブも層掃除も健全な範囲の信号の回復は行わなかった。
チェックポイントダイナミクスは、トレーニング中に崩壊が発生することを示している。
一致した隠蔽次元における両方の構成は、最も早く測定されたチェックポイントで信号を形成するが、トレーニングでは(24L, 16H)クラスで信号が消去され、予測損失は改善され続けている。
独立したレシピ全体で崩壊マップは変化するが、その現象は持続する。
Qwen 2.5とLlamaは一致した3Bスケールで2.9倍差があり、プローブシード分布は重複しないが、Mistral 7BはLlama 3.1の8Bが崩壊する可観測性を保っている。
WikiTextでトレーニングされたオブザーバは、これらのタスクをトレーニングすることなく、下流のQAに転送する。
20%のフラグレートで、排他的なキャッチレートは9つのモデルタスク細胞のうち7つのエラーの10.9-13.4%である。
アーキテクチャの選択は監視上の決定です。
関連論文リスト
- Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses [57.20181537213498]
エージェント・ハーネス・エンジニアリング(Agenic Harness Engineering)は、任意の工学ループの3段階を、一致した可観測性柱で測定した。
10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。
これらの結果から, 可観測性駆動型進化は, 符号化エージェントを継続的に改善するための実践的経路として位置づけられた。
論文 参考訳(メタデータ) (2026-04-28T16:55:02Z) - The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability [0.0]
表現の対距離構造の整合性である幾何学的安定性は、2つの関数に対処することを示す。
教師なしの安定性は、現実のタスクを操るために完全に失敗します。
ドリフト検出に優れ、トレーニング後のアライメントでCKAよりも2倍近い幾何変化を計測する。
論文 参考訳(メタデータ) (2026-04-20T01:24:45Z) - Disposition Distillation at Small Scale: A Three-Arc Negative Result [0.0]
内部ドラフトでは、Qwen3-0.6Bの学生に+33.9ポイントのMCASと+15.3ポイントのHumanEvalを報告している。
コンテントを損なうことなく, 判断された配置をスタイル的な模倣に転換するオペレータは見つからない。
我々は, 線形H_lastプローブに対する3つのアーク負の結果, 線形H_lastプローブに対する2つの欠陥モード分類, および, 自分たちが生成した偽陽性のクラスを, 公開可能な負に変換する正直なファルシフィケーションパイプラインを寄与する。
論文 参考訳(メタデータ) (2026-04-13T17:40:31Z) - LatentAudit: Real-Time White-Box Faithfulness Monitoring for Retrieval-Augmented Generation with Verifiable Deployment [19.317475241300397]
オープン・ウェイト・ジェネレータから中~後期の残ストリームアクティベーションをプールするホワイトボックス監査機であるLatentAuditを紹介する。
残差ストリーム幾何は、使用可能な忠実度信号を持ち、この信号がアーキテクチャの変化を生き延び、同じ規則が公衆の検証にも適用可能であることを示す。
論文 参考訳(メタデータ) (2026-04-07T02:55:32Z) - TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same [2.755751829139168]
ほとんどの不確実性を認識したロボットシステムは、予測の不確実性を単一のスカラースコアに分解し、それを使って一様に修正された応答をトリガーする。
このアグリゲーションは、破損した観測結果から不確実性が生じるか、あるいは学習されたモデルと真のシステム力学とのミスマッチから生じるのかを曖昧にしている。
本研究では,不確かさを動脈およびてんかん成分に分解する軽量なポストホックフレームワークを導入し,これらの信号を用いて推論時のシステム応答を調節する。
論文 参考訳(メタデータ) (2026-03-09T09:07:43Z) - Engineering Verifiable Modularity in Transformers via Per-Layer Supervision [0.0]
分散冗長性は損傷を補うため、資本化にとって重要なものとして認識される注目ヘッドを非難することは、最小限の行動変化をもたらす。
アーキテクチャの介入が隠されたモジュール性を公開することを実証します。
このことは、受動的観察から能動的制御への解釈可能性変換の方法論を台無しにしている。
論文 参考訳(メタデータ) (2026-03-08T05:18:14Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。