論文の概要: Interpretable-by-Design Transformers via Architectural Stream Independence
- arxiv url: http://arxiv.org/abs/2603.07482v1
- Date: Sun, 08 Mar 2026 05:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.625185
- Title: Interpretable-by-Design Transformers via Architectural Stream Independence
- Title(参考訳): 構造的ストリーム独立性を利用した解釈可能な設計変換器
- Authors: Clayton Kerce, Alexis Fox,
- Abstract要約: アーキテクチャの制約がアーキテクチャストリームの独立性を通じて設計による解釈可能性を高めることができるかどうかを検討する。
最終層全体を通して解釈可能なシンボリックヘッドを示すLate Fusion Architecture (LFA) を通じて、この原則を検証する。
我々は,この効果を,それぞれ$PDS_max$ = 0.276,0.058のToken-Position Dependence Score (PDS)を導入して定量化する。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While transformers achieve strong performance, their internal decision-making processes remain opaque. We investigate whether architectural constraints can enforce interpretability by design through architectural stream independence: maintaining a token stream (carrying symbolic structure) and contextual semantics in separated streams that remain independently observable throughout processing, with integration delayed until output. We validate this principle through the Late Fusion Architecture (LFA), which demonstrates interpretable symbolic heads through all the final layers, while standard transformers show dissolution by the third of six layers; we quantify this effect by introducing the Token-Position Dependence Score (PDS), with $PDS_{max}$ = 0.276 and 0.058, respectively. Crucially, intervention experiments demonstrate functional modularity: suppressing LFA's recency heads causes minimal semantic damage (Cohen's d = -0.158) versus catastrophic entanglement in baselines (d = -0.672). LFA demonstrates that architectural constraints improve underlying learning mechanisms, averaging 42% stability versus 19% and 11% for baseline comparisons, with extremes from 50% on LFA's best pairs (6 of 12 heads position-invariant) down to 0% complete collapse in over-constrained cases. By preventing premature entanglement, architectural independence steers models toward semantic understanding over positional heuristics, establishing interpretability as an architectural design criterion enforceable through structural constraints rather than post-hoc analysis.
- Abstract(参考訳): トランスフォーマーは高いパフォーマンスを達成するが、内部決定プロセスは不透明のままである。
アーキテクチャ制約がアーキテクチャストリームの独立性を通じて設計によって解釈可能性を実現することができるかどうかを考察する。 処理を通して独立して観測可能な分離ストリームにおいてトークンストリーム(シンボル構造を搬送する)とコンテキスト意味を維持でき、統合は出力まで遅れる。
我々は,この原理を,最終層全体を通して解釈可能なシンボルヘッドを示すLate Fusion Architecture (LFA) を通じて検証し,標準変圧器は6層中3層による解像を示すとともに,それぞれ$PDS_{max}$=0.276,0.058のToken-Position Dependence Score (PDS)を導入して,その効果を定量化する。
重要なこととして、干渉実験は機能的モジュラリティを示す: LFAの電流ヘッドの抑制は、ベースライン(d = -0.672)における破滅的な絡み合いに対して、最小の意味的損傷(コーエンのd = -0.158)を引き起こす。
LFAは、アーキテクチャ上の制約が基礎となる学習メカニズムを改善し、ベースライン比較では平均42%の安定性と19%の安定性と11%の安定性を示す。
早期の絡み合いを防ぐことによって、アーキテクチャ独立は、位置ヒューリスティックスに対する意味的理解に向けてモデルを構築し、ポストホック解析よりも構造的制約によって実施可能なアーキテクチャ設計基準として解釈可能性を確立する。
関連論文リスト
- The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling [1.2891210250935148]
残差ストリームを2つの機能的に異なるコンポーネントに分解するDual-Stream Transformerを導入する。
言語モデリングタスクにおけるこのトレードオフを29Mパラメータで測定する。
論文 参考訳(メタデータ) (2026-03-08T04:50:29Z) - OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions [0.0]
シーケンシャルなモデリングにおいて優れたトランスフォーマーアーキテクチャは、相関学習によって基本的に制限される。
そこで我々はOrthoFormerを提案する。OrthoFormerは機械的変数推定をニューラル制御機能を介してTransformerブロックに直接組み込む因果的基底アーキテクチャである。
論文 参考訳(メタデータ) (2026-03-08T03:05:16Z) - Breaking the Factorization Barrier in Diffusion Language Models [59.946071582340146]
ベクトル化障壁」は拡散言語モデルの効率的な並列生成を妨げる。
完全分解出力分布を置き換えるための結合離散拡散法を提案する。
我々は, CoDD が多種多様な言語モデルアーキテクチャをシームレスに拡張し, オーバーヘッドを無視できることを示した。
論文 参考訳(メタデータ) (2026-02-09T08:36:39Z) - Why Does the LLM Stop Computing: An Empirical Study of User-Reported Failures in Open-Source LLMs [50.075587392477935]
オープンソースのDeepSeek、Llama、Qwenのエコシステムから、705の現実世界の失敗に関する大規模な実証的研究を行った。
ホワイトボックスオーケストレーションは、モデルアルゴリズムの欠陥からデプロイメントスタックのシステム的脆弱性へと、信頼性のボトルネックを移動させます。
論文 参考訳(メタデータ) (2026-01-20T06:42:56Z) - Decoupling the Effect of Chain-of-Thought Reasoning: A Human Label Variation Perspective [60.45433515408158]
長いチェーン・オブ・ソート(CoT)がトップオプションの決定的決定要因となるが、あいまいなタスクの粒度分布キャリブレータとして機能しないことを示す。
CoTは分布アライメントを改善するが、CoTの内容によって最終的な精度が決定される。
論文 参考訳(メタデータ) (2026-01-06T16:26:40Z) - From Memorization to Creativity: LLM as a Designer of Novel Neural-Architectures [48.83701310501069]
大規模言語モデル(LLM)は、プログラム合成において優れているが、ニューラルネットワーク設計(信頼性、性能、構造的ノベルティ)を自律的にナビゲートする能力は、未調査のままである。
コード指向LLMをクローズドループ合成フレームワークに配置し、22の教師付き微調整サイクルの進化を解析することによって、この問題に対処する。
論文 参考訳(メタデータ) (2026-01-06T13:20:28Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - CoT-X: An Adaptive Framework for Cross-Model Chain-of-Thought Transfer and Optimization [5.857877898558651]
CoT(Chain-of-Thought)推論は、大規模言語モデル(LLM)の問題解決能力を高めるが、かなりの推論オーバーヘッドをもたらす。
本稿では、適応的推論要約フレームワークを用いて、異なるスケールとアーキテクチャのモデル間での効率的なCoT転送について検討する。
論文 参考訳(メタデータ) (2025-11-07T22:35:31Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - State Stream Transformer (SST) : Emergent Metacognitive Behaviours Through Latent State Persistence [0.0]
State Stream Transformer (SST) は、事前訓練された重みで遅延した突発的な推論動作を示す新しいLCMアーキテクチャである。
SSTは、自己回帰世代を通して永続的な潜伏過程を維持し、進化させる重み付き崩壊を伴うスライディングウィンドウ潜伏状態(FFN)キャッシュを導入している。
SSTは、GSM-8K(0ショット)で89.01%、ARC Challenge(0ショットCoT)で91.04%の精度を達成した。
論文 参考訳(メタデータ) (2025-01-30T14:03:36Z) - Demystifying Inductive Biases for $\beta$-VAE Based Architectures [19.53632220171481]
私たちは、VAEベースのアーキテクチャの成功に責任を持つ帰納バイアスに光を当てました。
古典的なデータセットでは, 生成因子によって誘導される分散構造は, VAEの目的によって促進される潜伏方向と都合よく一致していることを示す。
論文 参考訳(メタデータ) (2021-02-12T23:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。