論文の概要: Alignment and Adversarial Robustness: Are More Human-Like Models More Secure?
- arxiv url: http://arxiv.org/abs/2502.12377v1
- Date: Mon, 17 Feb 2025 23:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:15.628911
- Title: Alignment and Adversarial Robustness: Are More Human-Like Models More Secure?
- Title(参考訳): アライメントと敵対的ロバスト性: 人間のようなモデルはもっと安全か?
- Authors: Blaine Hoak, Kunyang Li, Patrick McDaniel,
- Abstract要約: 本研究では,大規模な実験分析を行い,表現的アライメントと対向的ロバスト性の関係について検討する。
その結果, 平均アライメントとロバストネスの相関は弱いが, 特定のアライメントベンチマークは, 対角ロバストネスの強い予測因子となることがわかった。
- 参考スコア(独自算出の注目度): 2.5228303963685366
- License:
- Abstract: Representational alignment refers to the extent to which a model's internal representations mirror biological vision, offering insights into both neural similarity and functional correspondence. Recently, some more aligned models have demonstrated higher resiliency to adversarial examples, raising the question of whether more human-aligned models are inherently more secure. In this work, we conduct a large-scale empirical analysis to systematically investigate the relationship between representational alignment and adversarial robustness. We evaluate 118 models spanning diverse architectures and training paradigms, measuring their neural and behavioral alignment and engineering task performance across 106 benchmarks as well as their adversarial robustness via AutoAttack. Our findings reveal that while average alignment and robustness exhibit a weak overall correlation, specific alignment benchmarks serve as strong predictors of adversarial robustness, particularly those that measure selectivity towards texture or shape. These results suggest that different forms of alignment play distinct roles in model robustness, motivating further investigation into how alignment-driven approaches can be leveraged to build more secure and perceptually-grounded vision models.
- Abstract(参考訳): 表現的アライメント(Representationalアライメント)とは、モデルの内部表現が生物学的ビジョンを反映する範囲を指し、神経的類似性と機能的対応の両方に関する洞察を提供する。
近年、よりアライメントの高いモデルでは、敵の例に対して高いレジリエンスを示しており、よりヒューマンアライメントなモデルの方が本質的に安全かどうかという疑問が提起されている。
本研究では,大規模な実験分析を行い,表現的アライメントと対向的ロバスト性の関係を体系的に検討する。
我々は、さまざまなアーキテクチャとトレーニングパラダイムにまたがる118のモデルを評価し、106のベンチマークでその神経的および行動的アライメントとエンジニアリングタスクのパフォーマンスを測定し、AutoAttackを介して敵のロバスト性を評価する。
平均アライメントとロバスト性は全体の相関関係が弱いが、特定のアライメントベンチマークは、特にテクスチャや形状に対する選択性を測定するような、反対ロバスト性の強い予測因子として機能する。
これらの結果は、アライメントの異なる形態がモデル堅牢性において異なる役割を担っていることを示唆し、アライメント駆動のアプローチをどのように活用してよりセキュアで知覚的な視覚モデルを構築するかをさらに調査する動機となっている。
関連論文リスト
- Is Smoothness the Key to Robustness? A Comparison of Attention and Convolution Models Using a Novel Metric [0.0]
既存の堅牢性評価アプローチは理論的な一般性を欠いているか、経験的評価に大きく依存していることが多い。
本研究では,トポロジカルデータ解析とリプシッツ連続性を橋渡ししてロバスト性評価を行う層解析に基づくトポリップを提案する。
論文 参考訳(メタデータ) (2024-10-23T07:44:14Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Enhancing Model Robustness and Fairness with Causality: A Regularization
Approach [15.981724441808147]
最近の研究は、機械学習モデルにおける急激な相関と意図しないバイアスのリスクを懸念している。
モデルトレーニング中に因果知識を統合するためのシンプルで直感的な正規化手法を提案する。
因果的特徴に依存し、因果的でない特徴に依存しない予測モデルを構築します。
論文 参考訳(メタデータ) (2021-10-03T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。