論文の概要: eX-ViT: A Novel eXplainable Vision Transformer for Weakly Supervised
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2207.05358v1
- Date: Tue, 12 Jul 2022 07:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 14:05:39.170098
- Title: eX-ViT: A Novel eXplainable Vision Transformer for Weakly Supervised
Semantic Segmentation
- Title(参考訳): eX-ViT:弱教師付きセマンティックセグメンテーションのための新しいeXPlainable Vision Transformer
- Authors: Lu Yu, Wei Xiang, Juan Fang, Yi-Ping Phoebe Chen, Lianhua Chi
- Abstract要約: eX-ViT (eXplainable Vision Transformer) と呼ばれる新しい視覚変換器を提案する。
eX-ViTは、堅牢な解釈可能な特徴を共同で発見し、予測を行うことができる。
- 参考スコア(独自算出の注目度): 19.311318200149383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently vision transformer models have become prominent models for a range
of vision tasks. These models, however, are usually opaque with weak feature
interpretability. Moreover, there is no method currently built for an
intrinsically interpretable transformer, which is able to explain its reasoning
process and provide a faithful explanation. To close these crucial gaps, we
propose a novel vision transformer dubbed the eXplainable Vision Transformer
(eX-ViT), an intrinsically interpretable transformer model that is able to
jointly discover robust interpretable features and perform the prediction.
Specifically, eX-ViT is composed of the Explainable Multi-Head Attention
(E-MHA) module, the Attribute-guided Explainer (AttE) module and the
self-supervised attribute-guided loss. The E-MHA tailors explainable attention
weights that are able to learn semantically interpretable representations from
local patches in terms of model decisions with noise robustness. Meanwhile,
AttE is proposed to encode discriminative attribute features for the target
object through diverse attribute discovery, which constitutes faithful evidence
for the model's predictions. In addition, a self-supervised attribute-guided
loss is developed for our eX-ViT, which aims at learning enhanced
representations through the attribute discriminability mechanism and attribute
diversity mechanism, to localize diverse and discriminative attributes and
generate more robust explanations. As a result, we can uncover faithful and
robust interpretations with diverse attributes through the proposed eX-ViT.
- Abstract(参考訳): 近年、視覚トランスモデルは様々な視覚タスクの顕著なモデルとなっている。
しかし、これらのモデルは通常、弱い特徴解釈性を持つ不透明である。
さらに、本質的に解釈可能なトランスフォーマーのために構築された手法はなく、その推論プロセスを説明し、忠実な説明を提供することができる。
これらの重要なギャップを埋めるために,本論文では,説明可能な視覚トランスフォーマ (ex-vit) と呼ばれる新しい視覚トランスフォーマを提案する。
具体的には、eX-ViTはExplainable Multi-Head Attention (E-MHA)モジュール、Attribute-Guided Explainer (AttE)モジュール、および自己管理属性誘導損失からなる。
E-MHAは、ノイズ堅牢性のあるモデル決定の観点から、局所パッチから意味論的に解釈可能な表現を学習できる、説明可能な注意重みを調整します。
一方、AttEは、モデルの予測に対する忠実な証拠を構成する多様な属性発見を通じて、対象対象の識別的属性特徴を符号化する。
さらに,属性識別可能性機構と属性多様性機構を通じて拡張表現を学習し,多様な属性を局所化し,より頑健な説明を生成することを目的とした,自己教師付き属性誘導損失を開発した。
その結果、提案したeX-ViTにより、多様な属性を持つ忠実で堅牢な解釈を明らかにすることができる。
関連論文リスト
- The Mechanics of Conceptual Interpretation in GPT Models: Interpretative Insights [10.777646083061395]
本稿では,大規模言語モデルにおける概念化機構を明らかにする知識編集の革新的バリエーションである概念編集を紹介する。
我々は、トランスモデルのマルチ層パーセプトロン(MLP)、マルチヘッドアテンション(MHA)、および隠れ状態成分を解析する。
我々の研究は、LLMにおける複雑な階層化されたセマンティック処理の性質と、これらのモデルにおける特定の概念の分離と修正の課題を強調している。
論文 参考訳(メタデータ) (2024-08-05T18:50:08Z) - LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multi-modal Foundation Models [4.675123839851372]
textitLatentExplainerは、深層生成モデルにおける潜伏変数の意味論的意味のある説明を自動的に生成するフレームワークである。
我々のアプローチは潜伏変数を摂動させ、生成されたデータの変化を解釈し、マルチモーダルな大言語モデル(MLLM)を用いて人間の理解可能な説明を生成する。
論文 参考訳(メタデータ) (2024-06-21T04:39:03Z) - Attention Mechanisms Don't Learn Additive Models: Rethinking Feature Importance for Transformers [12.986126243018452]
我々は,変圧器のフレームワークに合わせて設計された新しい代理モデルであるSoftmax-Linked Additive Log-Odds Model (SLALOM)を紹介する。
SLALOMは、合成データセットと実世界のデータセットの両方にわたって、忠実で洞察に富んだ説明を提供する能力を示している。
論文 参考訳(メタデータ) (2024-05-22T11:14:00Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - ELUDE: Generating interpretable explanations via a decomposition into
labelled and unlabelled features [23.384134043048807]
モデルの予測を2つの部分に分解する説明フレームワークを開発する。
後者を識別することで、モデルの"説明できない"部分を分析することができます。
また,同機能領域で訓練された複数のモデルに対して,非競合機能セットが一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T17:36:55Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Learning Generative Vision Transformer with Energy-Based Latent Space
for Saliency Prediction [51.80191416661064]
本稿では,有意な物体検出に先立って,潜伏変数を持つ新しい視覚変換器を提案する。
ビジョントランスネットワークとエネルギーベース先行モデルの両方は、マルコフ連鎖モンテカルロによる最大推定を通じて共同で訓練される。
生成型視覚変換器により、画像から容易に画素単位の不確実性マップを得ることができ、画像から唾液濃度を予測するためのモデル信頼度を示す。
論文 参考訳(メタデータ) (2021-12-27T06:04:33Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Transformer-based Conditional Variational Autoencoder for Controllable
Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。
我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。
具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文 参考訳(メタデータ) (2021-01-04T08:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。