論文の概要: Attribution-Guided Model Rectification of Unreliable Neural Network Behaviors
- arxiv url: http://arxiv.org/abs/2603.15656v1
- Date: Sun, 08 Mar 2026 01:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.848181
- Title: Attribution-Guided Model Rectification of Unreliable Neural Network Behaviors
- Title(参考訳): 帰属誘導型モデルによる信頼できないニューラルネットワークの挙動の定式化
- Authors: Peiyu Yang, Naveed Akhtar, Jiantong Jiang, Ajmal Mian,
- Abstract要約: 我々は、ランクワンモデル編集を活用して、帰属誘導モデル修正フレームワークを確立する。
まず、既存のモデル編集と整合性の設定を区別し、信頼性の低い振る舞いを補正する定式化を行う。
そこで本研究では, 帰属誘導層ローカライゼーション手法を提案する。
- 参考スコア(独自算出の注目度): 60.06461883533697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of neural network models deteriorates due to their unreliable behavior on non-robust features of corrupted samples. Owing to their opaque nature, rectifying models to address this problem often necessitates arduous data cleaning and model retraining, resulting in huge computational and manual overhead. In this work, we leverage rank-one model editing to establish an attribution-guided model rectification framework that effectively locates and corrects model unreliable behaviors. We first distinguish our rectification setting from existing model editing, yielding a formulation that corrects unreliable behavior while preserving model performance and reducing reliance on large budgets of cleansed samples. We further reveal a bottleneck of model rectifying arising from heterogeneous editability across layers. To target the primary source of misbehavior, we introduce an attribution-guided layer localization method that quantifies layer-wise editability and identifies the layer most responsible for unreliabilities. Extensive experiments demonstrate the effectiveness of our method in correcting unreliabilities observed for neural Trojans, spurious correlations and feature leakage. Our method shows remarkable performance by achieving its editing objective with as few as a single cleansed sample, which makes it appealing for practice.
- Abstract(参考訳): ニューラルネットワークモデルの性能は、破損したサンプルの非破壊的特徴に対する信頼性の低い振る舞いにより劣化する。
不透明な性質のため、この問題に対処するためのモデルの修正は、しばしば厳しいデータのクリーニングとモデル再トレーニングを必要とし、膨大な計算と手動のオーバーヘッドをもたらす。
本研究では、ランクワンモデル編集を活用し、帰属誘導モデル修正フレームワークを構築し、信頼できない振る舞いを効果的に見つけ、修正する。
まず,既存のモデル編集と整合性の設定を区別し,モデル性能を保ちながら信頼性の低い動作を補正し,クリーン化サンプルの大予算への依存を減らす定式化を行う。
さらに、層間の不均一な編集性から生じるモデル修正のボトルネックを明らかにする。
そこで本研究では,レイヤワイド編集可能性の定量化と信頼性の低いレイヤの同定を行う属性誘導型レイヤローカライゼーション手法を提案する。
広汎な実験により,神経トロイの木馬,突発的相関,特徴漏洩などの不確実性を補正する手法の有効性が示された。
本手法は, 1個の洗浄試料で編集目標を達成し, 優れた性能を示す。
関連論文リスト
- Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - When Claims Evolve: Evaluating and Enhancing the Robustness of Embedding Models Against Misinformation Edits [5.443263983810103]
ユーザーはオンラインでクレームと対話するので、しばしば編集を導入し、現在の埋め込みモデルがそのような編集に堅牢かどうかは不明だ。
本研究では, 文埋め込みモデルの頑健性を評価するために, 有効かつ自然なクレーム変動を生成する摂動フレームワークを提案する。
評価の結果,標準埋込モデルでは編集されたクレームに顕著な性能低下がみられ,LCM蒸留埋込モデルでは高い計算コストでロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2025-03-05T11:47:32Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Factual Error Correction for Abstractive Summarization Models [41.77317902748772]
本稿では,生成した要約の事実誤りを訂正するための編集後修正モジュールを提案する。
本モデルでは,他の神経要約モデルによって生成された要約の事実誤りを補正できることが示されている。
また、人工的なエラー訂正から下流の設定への移行は依然として非常に困難であることもわかりました。
論文 参考訳(メタデータ) (2020-10-17T04:24:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。