論文の概要: Alignment and Adversarial Robustness: Are More Human-Like Models More Secure?
- arxiv url: http://arxiv.org/abs/2502.12377v1
- Date: Mon, 17 Feb 2025 23:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:07:15.628911
- Title: Alignment and Adversarial Robustness: Are More Human-Like Models More Secure?
- Title(参考訳): アライメントと敵対的ロバスト性: 人間のようなモデルはもっと安全か?
- Authors: Blaine Hoak, Kunyang Li, Patrick McDaniel,
- Abstract要約: 本研究では,大規模な実験分析を行い,表現的アライメントと対向的ロバスト性の関係について検討する。
その結果, 平均アライメントとロバストネスの相関は弱いが, 特定のアライメントベンチマークは, 対角ロバストネスの強い予測因子となることがわかった。
- 参考スコア(独自算出の注目度): 2.5228303963685366
- License:
- Abstract: Representational alignment refers to the extent to which a model's internal representations mirror biological vision, offering insights into both neural similarity and functional correspondence. Recently, some more aligned models have demonstrated higher resiliency to adversarial examples, raising the question of whether more human-aligned models are inherently more secure. In this work, we conduct a large-scale empirical analysis to systematically investigate the relationship between representational alignment and adversarial robustness. We evaluate 118 models spanning diverse architectures and training paradigms, measuring their neural and behavioral alignment and engineering task performance across 106 benchmarks as well as their adversarial robustness via AutoAttack. Our findings reveal that while average alignment and robustness exhibit a weak overall correlation, specific alignment benchmarks serve as strong predictors of adversarial robustness, particularly those that measure selectivity towards texture or shape. These results suggest that different forms of alignment play distinct roles in model robustness, motivating further investigation into how alignment-driven approaches can be leveraged to build more secure and perceptually-grounded vision models.
- Abstract(参考訳): 表現的アライメント(Representationalアライメント)とは、モデルの内部表現が生物学的ビジョンを反映する範囲を指し、神経的類似性と機能的対応の両方に関する洞察を提供する。
近年、よりアライメントの高いモデルでは、敵の例に対して高いレジリエンスを示しており、よりヒューマンアライメントなモデルの方が本質的に安全かどうかという疑問が提起されている。
本研究では,大規模な実験分析を行い,表現的アライメントと対向的ロバスト性の関係を体系的に検討する。
我々は、さまざまなアーキテクチャとトレーニングパラダイムにまたがる118のモデルを評価し、106のベンチマークでその神経的および行動的アライメントとエンジニアリングタスクのパフォーマンスを測定し、AutoAttackを介して敵のロバスト性を評価する。
平均アライメントとロバスト性は全体の相関関係が弱いが、特定のアライメントベンチマークは、特にテクスチャや形状に対する選択性を測定するような、反対ロバスト性の強い予測因子として機能する。
これらの結果は、アライメントの異なる形態がモデル堅牢性において異なる役割を担っていることを示唆し、アライメント駆動のアプローチをどのように活用してよりセキュアで知覚的な視覚モデルを構築するかをさらに調査する動機となっている。
関連論文リスト
- A Robust Adversarial Ensemble with Causal (Feature Interaction) Interpretations for Image Classification [9.945272787814941]
本稿では,識別的特徴と生成的モデルを組み合わせた深層アンサンブルモデルを提案する。
提案手法は,特徴抽出のためのボトムレベル事前学習型識別ネットワークと,逆入力分布をモデル化したトップレベル生成型分類ネットワークを統合する。
論文 参考訳(メタデータ) (2024-12-28T05:06:20Z) - On Adversarial Robustness and Out-of-Distribution Robustness of Large Language Models [0.16874375111244325]
大規模言語モデル(LLM)における対向ロバストネスとOODロバストネスの相関について検討する。
以上の結果より, 対向ロバスト性とOODロバスト性との間にはニュアンスな相互作用がみられ, 移動性に限界があることが示唆された。
これらの相互作用を、より大きなモデルと様々なアーキテクチャにわたって評価するためには、さらなる研究が必要である。
論文 参考訳(メタデータ) (2024-12-13T20:04:25Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。