論文の概要: TriGuard: Testing Model Safety with Attribution Entropy, Verification, and Drift
- arxiv url: http://arxiv.org/abs/2506.14217v1
- Date: Tue, 17 Jun 2025 06:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.354634
- Title: TriGuard: Testing Model Safety with Attribution Entropy, Verification, and Drift
- Title(参考訳): TriGuard: 属性エントロピー、検証、ドリフトによるモデル安全性のテスト
- Authors: Dipesh Tharu Mahato, Rohan Poudel, Pramod Dhungana,
- Abstract要約: TriGuardはディープニューラルネットワークのための統一された安全性評価フレームワークである。
形式的ロバスト性検証、(2)帰属エントロピーによる塩分濃度の定量化、(3)説明安定度を測定する新しい属性ドリフトスコアを組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks often achieve high accuracy, but ensuring their reliability under adversarial and distributional shifts remains a pressing challenge. We propose TriGuard, a unified safety evaluation framework that combines (1) formal robustness verification, (2) attribution entropy to quantify saliency concentration, and (3) a novel Attribution Drift Score measuring explanation stability. TriGuard reveals critical mismatches between model accuracy and interpretability: verified models can still exhibit unstable reasoning, and attribution-based signals provide complementary safety insights beyond adversarial accuracy. Extensive experiments across three datasets and five architectures show how TriGuard uncovers subtle fragilities in neural reasoning. We further demonstrate that entropy-regularized training reduces explanation drift without sacrificing performance. TriGuard advances the frontier in robust, interpretable model evaluation.
- Abstract(参考訳): ディープニューラルネットワークは、しばしば高い精度を達成するが、敵と分散のシフトの下で信頼性を確保することは、依然として困難な課題である。
本稿では,(1)形式的ロバスト性検証,(2)塩分濃度を定量化するための属性エントロピー,(3)説明安定性を計測する新しい属性ドリフトスコアを組み合わせた統合安全評価フレームワークTriGuardを提案する。
TriGuard氏はモデル精度と解釈可能性の重大なミスマッチを明らかにしている。
3つのデータセットと5つのアーキテクチャにわたる大規模な実験は、TriGuardが神経推論における微妙なフラジリティを明らかにする方法を示している。
さらに,エントロピー規則化トレーニングは,性能を犠牲にすることなく説明のドリフトを低減することを実証した。
TriGuardは堅牢で解釈可能なモデル評価においてフロンティアを前進させる。
関連論文リスト
- TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Calib3D: Calibrating Model Preferences for Reliable 3D Scene Understanding [55.32861154245772]
Calib3Dは3Dシーン理解モデルの信頼性をベンチマークし精査する先駆的な試みである。
10の異なる3Dデータセットにまたがる28の最先端モデルを総合的に評価する。
本稿では,3次元モデルのキャリブレーション向上を目的とした,深度対応のスケーリング手法であるDeptSを紹介する。
論文 参考訳(メタデータ) (2024-03-25T17:59:59Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Reliability-Adaptive Consistency Regularization for Weakly-Supervised
Point Cloud Segmentation [80.07161039753043]
極端に限られたラベルを持つ弱教師付きポイントクラウドセグメンテーションは、高額な注釈付き3Dポイントの収集コストを軽減するのが望ましい。
本稿では、弱教師付き学習において一般的に用いられる一貫性の正則化を、複数のデータ固有の拡張を伴うポイントクラウドに適用することを検討する。
疑似ラベルの信頼性を評価するために,予測信頼性とモデル不確実性を両立させる新しい信頼性適応整合ネットワーク(RAC-Net)を提案する。
論文 参考訳(メタデータ) (2023-03-09T10:41:57Z) - SoK: Modeling Explainability in Security Analytics for Interpretability,
Trustworthiness, and Usability [2.656910687062026]
高信頼のセキュリティアプリケーションにおいて、解釈可能性、信頼性、およびユーザビリティが重要な考慮事項である。
ディープラーニングモデルは、分類や予測につながる重要な特徴や要因を特定するブラックボックスとして振る舞う。
ほとんどの説明法は矛盾した説明を提供し、忠実度は低く、敵の操作に影響を受けやすい。
論文 参考訳(メタデータ) (2022-10-31T15:01:49Z) - How many perturbations break this model? Evaluating robustness beyond
adversarial accuracy [28.934863462633636]
入力点と摂動方向の制約の両方が与えられた摂動を成功させることがいかに困難であるかを定量化する。
空間性は、ニューラルネットワークに関する貴重な洞察を、複数の方法で提供することを示す。
論文 参考訳(メタデータ) (2022-07-08T21:25:17Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Label Smoothing and Adversarial Robustness [16.804200102767208]
ラベルの平滑化によるトレーニングモデルは、ほとんどのグラデーションベースアタックにおいて、容易に顕著な精度を達成できることがわかった。
本研究は,研究コミュニティに対して,モデルの堅牢性を適切に評価する方法を再考するものである。
論文 参考訳(メタデータ) (2020-09-17T12:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。