論文の概要: VISION DIFFMASK: Faithful Interpretation of Vision Transformers with
Differentiable Patch Masking
- arxiv url: http://arxiv.org/abs/2304.06391v1
- Date: Thu, 13 Apr 2023 10:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 14:53:23.471773
- Title: VISION DIFFMASK: Faithful Interpretation of Vision Transformers with
Differentiable Patch Masking
- Title(参考訳): Vision DIFFMASK: 可変パッチマスキングによる視覚変換器の忠実解釈
- Authors: Angelos Nalmpantis, Apostolos Panagiotopoulos, John Gkountouras,
Konstantinos Papakostas and Wilker Aziz
- Abstract要約: 本稿では、VVISION DIFFMASKと呼ばれるポストホック解釈法を提案する。
モデルの隠れたレイヤのアクティベートを使用して、最終的な予測に寄与する入力の関連部分を予測します。
我々の手法は、予測されたクラス上の分布を保存する元の入力の最小サブセットを特定するためにゲーティング機構を使用する。
- 参考スコア(独自算出の注目度): 10.345616883018296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of interpretability of the Vision Transformer may hinder its use in
critical real-world applications despite its effectiveness. To overcome this
issue, we propose a post-hoc interpretability method called VISION DIFFMASK,
which uses the activations of the model's hidden layers to predict the relevant
parts of the input that contribute to its final predictions. Our approach uses
a gating mechanism to identify the minimal subset of the original input that
preserves the predicted distribution over classes. We demonstrate the
faithfulness of our method, by introducing a faithfulness task, and comparing
it to other state-of-the-art attribution methods on CIFAR-10 and ImageNet-1K,
achieving compelling results. To aid reproducibility and further extension of
our work, we open source our implementation:
https://github.com/AngelosNal/Vision-DiffMask
- Abstract(参考訳): 視覚トランスフォーマーの解釈性の欠如は、その有効性にもかかわらず、重要な実世界のアプリケーションでの使用を妨げる可能性がある。
そこで,本稿では,モデルの隠れたレイヤのアクティベーションを利用して,最終的な予測に寄与する入力の関連部分を予測する視覚差分マスク(vision diffmask)というポストホック解釈法を提案する。
本手法では,クラス上の予測分布を保存する元入力の最小部分集合をゲーティング機構を用いて識別する。
本稿では,忠実性タスクを導入し,cifar-10とimagenet-1kの他の最先端アトリビューション手法と比較し,説得力のある結果を得た。
再現性と作業のさらなる拡張を支援するため、私たちは実装をオープンソースにしました。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in LVLMs [16.185253476874006]
LVLMにおける幻覚に対する堅牢性を高めるため,RITUALと呼ばれる簡易なトレーニング不要な手法を提案する。
提案手法では,元の確率分布を補うために,ランダムな画像変換を用いる。
実験の結果,変換画像の孤立的使用は当初は性能を低下させるが,これらの変換の戦略的実装は事実上有効な補完となることが示された。
論文 参考訳(メタデータ) (2024-05-28T04:41:02Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Interpretability-Aware Vision Transformer [13.310757078491916]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文 参考訳(メタデータ) (2023-09-14T21:50:49Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Single-round Self-supervised Distributed Learning using Vision
Transformer [34.76985278888513]
視覚変換器の自己監督型マスクサンプリング蒸留法を提案する。
この方法は、連続的な通信なしに実装でき、ビジョントランスフォーマー固有の暗号化技術を利用することで、プライバシーを高めることができる。
論文 参考訳(メタデータ) (2023-01-05T13:47:36Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Self-supervised Equivariant Attention Mechanism for Weakly Supervised
Semantic Segmentation [93.83369981759996]
本稿では,自己監督同変注意機構(SEAM)を提案する。
本手法は,完全教師付きセマンティックセグメンテーションにおいて,同値が暗黙の制約であることを示す。
本稿では,ネットワーク学習のための自己スーパービジョンを提供するために,様々な変換画像から予測されたCAMの整合性正則化を提案する。
論文 参考訳(メタデータ) (2020-04-09T14:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。