論文の概要: LayerTracer: A Joint Task-Particle and Vulnerable-Layer Analysis framework for Arbitrary Large Language Model Architectures
- arxiv url: http://arxiv.org/abs/2604.20556v1
- Date: Wed, 22 Apr 2026 13:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.145487
- Title: LayerTracer: A Joint Task-Particle and Vulnerable-Layer Analysis framework for Arbitrary Large Language Model Architectures
- Title(参考訳): LayerTracer: 任意大規模言語モデルアーキテクチャのための共同タスクパーティクルと脆弱性階層分析フレームワーク
- Authors: Yuhang Wu, Qinyuan Liu, Qiuyang Zhao, Qingwei Chong,
- Abstract要約: 本稿では,アーキテクチャに依存しないエンドツーエンド分析フレームワークであるLayerTracerを提案する。
隠れ状態を層ごとに抽出し,語彙的確率分布にマッピングすることにより,タスク粒子の局所化と層脆弱性の定量化を共同で解析する。
- 参考スコア(独自算出の注目度): 2.175079806379993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, Large Language Models (LLMs) feature a diversified architectural landscape, including traditional Transformer, GateDeltaNet, and Mamba. However, the evolutionary laws of hierarchical representations, task knowledge formation positions, and network robustness bottleneck mechanisms in various LLM architectures remain unclear, posing core challenges for hybrid architecture design and model optimization. This paper proposes LayerTracer, an architecture-agnostic end-to-end analysis framework compatible with any LLM architecture. By extracting hidden states layer-by-layer and mapping them to vocabulary probability distributions, it achieves joint analysis of task particle localization and layer vulnerability quantification. We define the task particle as the key layer where the target token probability first rises significantly, representing the model's task execution starting point, and the vulnerable layer is defined as the layer with the maximum Jensen-Shannon (JS) divergence between output distributions before and after mask perturbation, reflecting its sensitivity to disturbances. Experiments on models of different parameter scales show that task particles mainly appear in the deep layers of the model regardless of parameter size, while larger-parameter models exhibit stronger hierarchical robustness. LayerTracer provides a scientific basis for layer division, module ratio, and gating switching of hybrid architectures, effectively optimizing model performance. It accurately locates task-effective layers and stability bottlenecks, offering universal support for LLM structure design and interpretability research.
- Abstract(参考訳): 現在、LLM(Large Language Models)は、Transformer、GateDeltaNet、Mambaなど、多様なアーキテクチャの展望を特徴としている。
しかし、階層的表現、タスク知識形成位置、および様々なLLMアーキテクチャにおけるネットワークロバスト性ボトルネック機構の進化法則はいまだ不明であり、ハイブリッドアーキテクチャ設計とモデル最適化の鍵となる課題を提起している。
本稿では,LLMアーキテクチャと互換性のあるアーキテクチャに依存しないエンドツーエンド分析フレームワークであるLayerTracerを提案する。
隠れ状態を層ごとに抽出し,語彙的確率分布にマッピングすることにより,タスク粒子の局所化と層脆弱性の定量化を共同で解析する。
本研究では,目標トークン確率が最初に上昇する鍵層として,モデルのタスク実行開始点を表すとともに,マスクの摂動前後の出力分布の最大値であるJensen-Shannon(JS)分散層として定義し,乱れに対する感度を反映した。
パラメータスケールの異なるモデルの実験では、タスク粒子はパラメータのサイズに関わらずモデルの深い層に主に現れるが、大きなパラメータモデルはより強い階層的ロバスト性を示す。
LayerTracerは、階層分割、モジュール比、ハイブリッドアーキテクチャのゲーティングスイッチングのための科学的基盤を提供し、効果的にモデル性能を最適化する。
タスク効率のよいレイヤと安定性のボトルネックを正確に特定し、LLMの構造設計と解釈可能性の研究を普遍的にサポートする。
関連論文リスト
- MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis [0.7898424058509471]
MoEMambaMILは、全スライディング画像(WSI)解析のための構造認識フレームワークである。
エリアネスト選択走査とMix of-Experts(MoE)モデリングを統合している。
MoEMambaMILは、9つの下流タスクで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-06T15:28:07Z) - RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis [53.90240071275054]
SLM(Small Language Models)によるローカライズドインテリジェンスへの移行により、リソース制約のあるエッジハードウェア上での厳密なパフォーマンス評価の必要性が高まっている。
運用強度レンズ(OI)によるアーキテクチャプリミティブとハードウェア制約を統一する体系的フレームワークを提案する。
推論-ポテンシャル領域を定義することにより、同一ハードウェア基板上のLarge Language Models(LLM)の効率差を比較するための新しい指標として、相対推論ポテンシャルを導入する。
論文 参考訳(メタデータ) (2026-02-12T03:02:22Z) - Closed-Loop LLM Discovery of Non-Standard Channel Priors in Vision Models [48.83701310501069]
大規模言語モデル(LLM)はニューラルアーキテクチャサーチ(NAS)に対する変換的アプローチを提供する
我々は、LLMが性能テレメトリに基づいてアーキテクチャ仕様を洗練する条件付きコード生成タスクのシーケンスとして検索を定式化する。
AST(Abstract Syntax Tree)変異を用いて,有効かつ整合性のあるアーキテクチャの膨大なコーパスを生成する。
CIFAR-100の実験結果は、この手法の有効性を検証し、精度の統計的に有意な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2026-01-13T13:00:30Z) - Hierarchical Alignment: Surgical Fine-Tuning via Functional Layer Specialization in Large Language Models [4.935224714809964]
階層的アライメント(Hierarchical Alignment)は、モデルレイヤの異なる機能ブロックにターゲットDPOを適用する新しい手法である。
具体的には、局所的な層(ローカル・アライン)の整列は文法的な流感を高める。
グローバル層(Global-Align)の整合性は、仮説として事実整合性を改善するが、論理的コヒーレンスを強化するための最も効果的な戦略であることを証明している。
論文 参考訳(メタデータ) (2025-10-14T00:58:34Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Spectral Architecture Search for Neural Network Models [0.0]
本稿では,層間転送行列のスペクトル特性を利用した新しいアーキテクチャ探索プロトコルを提案する。
提案手法は, 最小限の表現率を有する自己創出型アーキテクチャで, 調査対象のタスクを処理可能であることを示す。
論文 参考訳(メタデータ) (2025-04-01T15:14:30Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。