論文の概要: Topological Signatures of Adversaries in Multimodal Alignments
- arxiv url: http://arxiv.org/abs/2501.18006v1
- Date: Wed, 29 Jan 2025 21:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:34.131799
- Title: Topological Signatures of Adversaries in Multimodal Alignments
- Title(参考訳): マルチモーダルアライメントにおけるアドバナリーのトポロジカルシグナチャ
- Authors: Minh Vu, Geigh Zollicoffer, Huy Mai, Ben Nebgen, Boian Alexandrov, Manish Bhattarai,
- Abstract要約: 本研究では、画像とテキストの埋め込みの間に生じるトポロジカルなシグネチャを調べ、敵対的攻撃がそれらのアライメントをいかに破壊するかを示す。
我々は永続的ホモロジーを使用し、トータルパーシステンス法とマルチスケールカーネル法に基づく2つの新しいトポロジ・コントラスト的損失を導入する。
画像テキストアライメントに対する広範囲な攻撃で生じるトポロジカルな損失に対する単調な変化のパターンを観察する。
- 参考スコア(独自算出の注目度): 1.4742163262399284
- License:
- Abstract: Multimodal Machine Learning systems, particularly those aligning text and image data like CLIP/BLIP models, have become increasingly prevalent, yet remain susceptible to adversarial attacks. While substantial research has addressed adversarial robustness in unimodal contexts, defense strategies for multimodal systems are underexplored. This work investigates the topological signatures that arise between image and text embeddings and shows how adversarial attacks disrupt their alignment, introducing distinctive signatures. We specifically leverage persistent homology and introduce two novel Topological-Contrastive losses based on Total Persistence and Multi-scale kernel methods to analyze the topological signatures introduced by adversarial perturbations. We observe a pattern of monotonic changes in the proposed topological losses emerging in a wide range of attacks on image-text alignments, as more adversarial samples are introduced in the data. By designing an algorithm to back-propagate these signatures to input samples, we are able to integrate these signatures into Maximum Mean Discrepancy tests, creating a novel class of tests that leverage topological signatures for better adversarial detection.
- Abstract(参考訳): マルチモーダル機械学習システム、特にCLIP/BLIPモデルのようなテキストと画像データを整列するシステムは、ますます普及しているが、敵の攻撃には影響を受けない。
実質的な研究は、単調な文脈における敵の堅牢性に対処してきたが、マルチモーダルシステムに対する防衛戦略は過小評価されている。
本研究は,画像とテキストの埋め込みの間に生じるトポロジカルなシグネチャを調査し,敵対的攻撃がそれらのアライメントを阻害し,特異なシグネチャを導入していることを示す。
具体的には、永続的ホモロジーを特に活用し、対向的摂動によって生じるトポロジ的シグネチャを分析するために、トータルパーシステンス法とマルチスケールカーネル法に基づく2つの新しいトポロジ的損失を導入する。
画像テキストアライメントに対する広範囲な攻撃によって生じるトポロジカルな損失に対する単調な変化のパターンを観察し,データにより多くの逆のサンプルが導入された。
これらのシグネチャを入力サンプルにバックプロパゲートするアルゴリズムを設計することにより、これらのシグネチャを最大平均離散性テストに統合し、トポロジ的シグネチャを活用してより良い逆検出を行う新しいテストクラスを作成することができる。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - CoSD: Collaborative Stance Detection with Contrastive Heterogeneous Topic Graph Learning [18.75039816544345]
我々はCoSD(CoSD)と呼ばれる新しい協調姿勢検出フレームワークを提案する。
CoSDは、テキスト、トピック、スタンスラベル間のトピック認識のセマンティクスと協調的なシグナルを学ぶ。
2つのベンチマークデータセットの実験では、CoSDの最先端検出性能が示されている。
論文 参考訳(メタデータ) (2024-04-26T02:04:05Z) - Noise Contrastive Estimation-based Matching Framework for Low-Resource
Security Attack Pattern Recognition [49.536368818512116]
TTP(Tactics, Techniques and Procedures)は、サイバーセキュリティドメインにおける高度な攻撃パターンを表す。
そこで本研究では,TTPラベルへのテキストの割り当てが,両者の直接的な意味的類似性によって決定される,異なる学習パラダイムの問題を定式化する。
本稿では,効果的なサンプリングベース学習機構を備えたニューラルマッチングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-18T19:02:00Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Learning Polysemantic Spoof Trace: A Multi-Modal Disentanglement Network
for Face Anti-spoofing [34.44061534596512]
本稿では,より正確で堅牢な汎用攻撃検出のために,多面的スプーフトレースをターゲットとしたマルチモーダル・アンタングルモデルを提案する。
特に、対角学習機構に基づいて、RGBと深度入力からそれぞれスプーフパターンを推定する2ストリームディエンタングリングネットワークを設計する。
論文 参考訳(メタデータ) (2022-12-07T20:23:51Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - FADER: Fast Adversarial Example Rejection [19.305796826768425]
近年の防御は, 異なる層表現における正統な訓練試料からの異常な偏差を検出することにより, 対向的堅牢性を向上させることが示されている。
本稿では,検出に基づく手法を高速化する新しい手法であるFADERを紹介する。
実験では,MNISTデータセットの解析値と比較すると,最大73倍の試作機,CIFAR10の最大50倍の試作機について概説した。
論文 参考訳(メタデータ) (2020-10-18T22:00:11Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。