論文の概要: eX-ViT: A Novel eXplainable Vision Transformer for Weakly Supervised
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2207.05358v1
- Date: Tue, 12 Jul 2022 07:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:05:39.170098
- Title: eX-ViT: A Novel eXplainable Vision Transformer for Weakly Supervised
Semantic Segmentation
- Title(参考訳): eX-ViT:弱教師付きセマンティックセグメンテーションのための新しいeXPlainable Vision Transformer
- Authors: Lu Yu, Wei Xiang, Juan Fang, Yi-Ping Phoebe Chen, Lianhua Chi
- Abstract要約: eX-ViT (eXplainable Vision Transformer) と呼ばれる新しい視覚変換器を提案する。
eX-ViTは、堅牢な解釈可能な特徴を共同で発見し、予測を行うことができる。
- 参考スコア(独自算出の注目度): 19.311318200149383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently vision transformer models have become prominent models for a range
of vision tasks. These models, however, are usually opaque with weak feature
interpretability. Moreover, there is no method currently built for an
intrinsically interpretable transformer, which is able to explain its reasoning
process and provide a faithful explanation. To close these crucial gaps, we
propose a novel vision transformer dubbed the eXplainable Vision Transformer
(eX-ViT), an intrinsically interpretable transformer model that is able to
jointly discover robust interpretable features and perform the prediction.
Specifically, eX-ViT is composed of the Explainable Multi-Head Attention
(E-MHA) module, the Attribute-guided Explainer (AttE) module and the
self-supervised attribute-guided loss. The E-MHA tailors explainable attention
weights that are able to learn semantically interpretable representations from
local patches in terms of model decisions with noise robustness. Meanwhile,
AttE is proposed to encode discriminative attribute features for the target
object through diverse attribute discovery, which constitutes faithful evidence
for the model's predictions. In addition, a self-supervised attribute-guided
loss is developed for our eX-ViT, which aims at learning enhanced
representations through the attribute discriminability mechanism and attribute
diversity mechanism, to localize diverse and discriminative attributes and
generate more robust explanations. As a result, we can uncover faithful and
robust interpretations with diverse attributes through the proposed eX-ViT.
- Abstract(参考訳): 近年、視覚トランスモデルは様々な視覚タスクの顕著なモデルとなっている。
しかし、これらのモデルは通常、弱い特徴解釈性を持つ不透明である。
さらに、本質的に解釈可能なトランスフォーマーのために構築された手法はなく、その推論プロセスを説明し、忠実な説明を提供することができる。
これらの重要なギャップを埋めるために,本論文では,説明可能な視覚トランスフォーマ (ex-vit) と呼ばれる新しい視覚トランスフォーマを提案する。
具体的には、eX-ViTはExplainable Multi-Head Attention (E-MHA)モジュール、Attribute-Guided Explainer (AttE)モジュール、および自己管理属性誘導損失からなる。
E-MHAは、ノイズ堅牢性のあるモデル決定の観点から、局所パッチから意味論的に解釈可能な表現を学習できる、説明可能な注意重みを調整します。
一方、AttEは、モデルの予測に対する忠実な証拠を構成する多様な属性発見を通じて、対象対象の識別的属性特徴を符号化する。
さらに,属性識別可能性機構と属性多様性機構を通じて拡張表現を学習し,多様な属性を局所化し,より頑健な説明を生成することを目的とした,自己教師付き属性誘導損失を開発した。
その結果、提案したeX-ViTにより、多様な属性を持つ忠実で堅牢な解釈を明らかにすることができる。
関連論文リスト
- Cross Feature Selection to Eliminate Spurious Interactions and Single
Feature Dominance Explainable Boosting Machines [0.0]
解釈性は法的、倫理的、実践的な理由において不可欠である。
高性能モデルは、冗長な特徴と単一機能支配との素早い相互作用に悩まされることがある。
本稿では,これらの課題に対処するための新しいアプローチとして,代替のクロスフィーチャー選択,アンサンブル機能,モデル構成変更手法について検討する。
論文 参考訳(メタデータ) (2023-07-17T13:47:41Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Demystify Self-Attention in Vision Transformers from a Semantic
Perspective: Analysis and Application [21.161850569358776]
自己認識機構はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。
多くの既存の視覚変換器(ViT)は、単に視覚タスクに適応するためにNLPから固有のトランスフォーマー設計を施している。
本稿では,低レベル表現を中間レベル空間にマッピングする典型的な画像処理手法を提案する。
論文 参考訳(メタデータ) (2022-11-13T15:18:31Z) - A simple probabilistic neural network for machine understanding [0.0]
本稿では,機械理解のためのモデルとして,確率的ニューラルネットワークと内部表現の固定化について論じる。
内部表現は、それが最大関係の原理と、どのように異なる特徴が組み合わされるかについての最大無知を満たすことを要求して導出する。
このアーキテクチャを持つ学習機械は、パラメータやデータの変化に対する表現の連続性など、多くの興味深い特性を享受している、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T13:00:15Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - ELUDE: Generating interpretable explanations via a decomposition into
labelled and unlabelled features [23.384134043048807]
モデルの予測を2つの部分に分解する説明フレームワークを開発する。
後者を識別することで、モデルの"説明できない"部分を分析することができます。
また,同機能領域で訓練された複数のモデルに対して,非競合機能セットが一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T17:36:55Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Learning Generative Vision Transformer with Energy-Based Latent Space
for Saliency Prediction [51.80191416661064]
本稿では,有意な物体検出に先立って,潜伏変数を持つ新しい視覚変換器を提案する。
ビジョントランスネットワークとエネルギーベース先行モデルの両方は、マルコフ連鎖モンテカルロによる最大推定を通じて共同で訓練される。
生成型視覚変換器により、画像から容易に画素単位の不確実性マップを得ることができ、画像から唾液濃度を予測するためのモデル信頼度を示す。
論文 参考訳(メタデータ) (2021-12-27T06:04:33Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Transformer-based Conditional Variational Autoencoder for Controllable
Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。
我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。
具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文 参考訳(メタデータ) (2021-01-04T08:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。