論文の概要: SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding
- arxiv url: http://arxiv.org/abs/2603.08424v1
- Date: Mon, 09 Mar 2026 14:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.199106
- Title: SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding
- Title(参考訳): SynAPSE:シーケンスエンコーディングにおけるニューロン解析と摂動のためのフレームワーク
- Authors: Jesús Sánchez Ochoa, Enrique Tomás Martínez Beltrán, Alberto Huertas Celdrán,
- Abstract要約: 医療やサイバーセキュリティのような敏感なドメインでは、透明性、信頼性、堅牢性を保証することが不可欠である。
この研究は、Transformerモデルの内部動作を理解しテストするための、体系的でトレーニング不要なフレームワークであるSynAPSEを提案する。
- 参考スコア(独自算出の注目度): 4.507191680687611
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, Artificial Intelligence has become a powerful partner for complex tasks such as data analysis, prediction, and problem-solving, yet its lack of transparency raises concerns about its reliability. In sensitive domains such as healthcare or cybersecurity, ensuring transparency, trustworthiness, and robustness is essential, since the consequences of wrong decisions or successful attacks can be severe. Prior neuron-level interpretability approaches are primarily descriptive, task-dependent, or require retraining, which limits their use as systematic, reusable tools for evaluating internal robustness across architectures and domains. To overcome these limitations, this work proposes SYNAPSE, a systematic, training-free framework for understanding and stress-testing the internal behavior of Transformer models across domains. It extracts per-layer [CLS] representations, trains a lightweight linear probe to obtain global and per-class neuron rankings, and applies forward-hook interventions during inference. This design enables controlled experiments on internal representations without altering the original model, thereby allowing weaknesses, stability patterns, and label-specific sensitivities to be measured and compared directly across tasks and architectures. Across all experiments, SYNAPSE reveals a consistent, domain-independent organization of internal representations, in which task-relevant information is encoded in broad, overlapping neuron subsets. This redundancy provides a strong degree of functional stability, while class-wise asymmetries expose heterogeneous specialization patterns and enable label-aware analysis. In contrast, small structured manipulations in weight or logit space are sufficient to redirect predictions, highlighting complementary vulnerability profiles and illustrating how SYNAPSE can guide the development of more robust Transformer models.
- Abstract(参考訳): 近年、人工知能はデータ分析、予測、問題解決といった複雑なタスクのための強力なパートナーになっているが、透明性の欠如は信頼性に関する懸念を喚起している。
医療やサイバーセキュリティのようなセンシティブなドメインでは、誤った決定や攻撃の成功の結果が深刻になるため、透明性、信頼性、堅牢性を保証することが不可欠である。
従来のニューロンレベルの解釈可能性アプローチは、主に記述的、タスク依存、あるいは再訓練を必要とするもので、アーキテクチャやドメイン間の内部の堅牢性を評価するための体系的、再利用可能なツールとしての使用を制限する。
これらの制限を克服するために、この研究はSynAPSEを提案する。SynAPSEはドメイン間のトランスフォーマーモデルの内部動作を理解し、ストレステストするための、体系的な、トレーニングなしのフレームワークである。
層ごとの[CLS]表現を抽出し、軽量な線形プローブを訓練して、グローバルおよびクラスごとのニューロンランキングを取得し、推論中に前方からの介入を適用する。
この設計により、オリジナルのモデルを変更することなく内部表現を制御できるため、弱点、安定性パターン、ラベル固有の感度を計測し、タスクやアーキテクチャ間で直接比較することができる。
全ての実験において、SynAPSEは、タスク関連情報を広範に重複したニューロンサブセットにエンコードする、一貫した、ドメインに依存しない内部表現の組織を明らかにしている。
この冗長性は機能安定性を強くもたらし、クラスワイドの対称性は不均一な特殊化パターンを露呈し、ラベル認識分析を可能にする。
対照的に、重みやロジット空間における小さな構造化された操作は、予測をリダイレクトするのに十分であり、補完的な脆弱性プロファイルを強調し、SynAPSEがより堅牢なTransformerモデルの開発を導く方法を示している。
関連論文リスト
- CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing [51.56484100374058]
CLAIREは、教師なしの深層表現学習と、スマート製造システムにおけるインテリジェントな品質管理のための教師付き分類を統合したハイブリッドエンドツーエンド学習フレームワークである。
最適化されたディープオートエンコーダを使用して、生の入力をコンパクトな潜伏空間に変換し、不適切な特徴やノイズを抑えながら本質的なデータ構造を効果的にキャプチャする。
提案したフレームワークは、堅牢な障害検出のために、説明可能なAIと機能認識の正規化を統合する可能性を強調している。
論文 参考訳(メタデータ) (2026-03-06T15:11:58Z) - The Emergence of Lab-Driven Alignment Signatures: A Psychometric Framework for Auditing Latent Bias and Compounding Risk in Generative AI [0.0]
本稿では,不確実性の下での潜在特性推定を定量化する新しい監査フレームワークを提案する。
この研究は最適化バイアス、Sycophancy、Status-Quo Legitimizationを含む9つの次元にわたる主要なモデルを監査している。
論文 参考訳(メタデータ) (2026-02-19T06:56:01Z) - Towards Worst-Case Guarantees with Scale-Aware Interpretability [58.519943565092724]
ニューラルネットワークは、自然データの階層的多スケール構造に従って情報を整理する。
我々は,形式機械と解釈可能性ツールを開発するための統一的な研究課題,即時対応型解釈可能性(enmphscale-aware interpretability)を提案する。
論文 参考訳(メタデータ) (2026-02-05T01:22:31Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Explainable Neural Inverse Kinematics for Obstacle-Aware Robotic Manipulation: A Comparative Analysis of IKNet Variants [0.28544513613730205]
ディープニューラルネットワークは、低コストのマニピュレータが複雑な軌道をリアルタイムで実行できる地点まで、逆運動学(IK)推論を加速させた。
本研究では,Shapley値属性と物理に基づく障害物回避評価を統合した説明可能性中心ワークフローを提案する。
論文 参考訳(メタデータ) (2025-12-29T09:02:02Z) - Interpretable Hybrid Deep Q-Learning Framework for IoT-Based Food Spoilage Prediction with Synthetic Data Generation and Hardware Validation [0.5417521241272645]
インテリジェントでリアルタイムな腐敗予測システムの必要性は、現代のIoT駆動食品サプライチェーンにおいて重要になっている。
本稿では,Long Short-Term Memory(LSTM)とRecurrent Neural Networks(RNN)を統合したハイブリッド強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-22T12:59:48Z) - Towards Trustworthy Wi-Fi Sensing: Systematic Evaluation of Deep Learning Model Robustness to Adversarial Attacks [4.5835414225547195]
我々は、多様な脅威モデルと様々な攻撃リアリズムの下で、CSI深層学習モデルの堅牢性を評価する。
私たちの実験では、より小さなモデルは効率的で、クリーンなデータでも等しく機能するが、明らかにロバストさが低いことが示されています。
物理的に実現可能な信号空間の摂動は、実際の無線チャネルで実現可能なように設計されており、攻撃の成功を著しく減少させる。
論文 参考訳(メタデータ) (2025-11-25T16:24:29Z) - Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [57.19302613163439]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。
本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。
残る技術的課題や倫理的考察も分析する。
論文 参考訳(メタデータ) (2025-06-05T05:42:27Z) - Explainability of Point Cloud Neural Networks Using SMILE: Statistical Model-Agnostic Interpretability with Local Explanations [0.0]
本研究は,深層ニューラルネットワーク用に設計された新たな説明可能性手法であるSMILEの実装を,ポイントクラウドベースモデルを用いて検討する。
このアプローチは、様々なカーネル幅、摂動数、クラスタリング構成における忠実度損失、R2スコア、ロバストネスの点で優れた性能を示す。
カテゴリの分類におけるデータセットバイアスをさらに特定し、安全クリティカルなアプリケーションにおいてより包括的なデータセットの必要性を強調した。
論文 参考訳(メタデータ) (2024-10-20T12:13:59Z) - Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。
我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文 参考訳(メタデータ) (2021-02-23T20:59:30Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。