Fugu-MT 論文翻訳(概要): eX-ViT: A Novel eXplainable Vision Transformer for Weakly Supervised Semantic Segmentation

論文の概要: eX-ViT: A Novel eXplainable Vision Transformer for Weakly Supervised Semantic Segmentation

arxiv url: http://arxiv.org/abs/2207.05358v1
Date: Tue, 12 Jul 2022 07:43:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-13 14:05:39.170098
Title: eX-ViT: A Novel eXplainable Vision Transformer for Weakly Supervised Semantic Segmentation
Title（参考訳）: eX-ViT:弱教師付きセマンティックセグメンテーションのための新しいeXPlainable Vision Transformer
Authors: Lu Yu, Wei Xiang, Juan Fang, Yi-Ping Phoebe Chen, Lianhua Chi
Abstract要約: eX-ViT (eXplainable Vision Transformer) と呼ばれる新しい視覚変換器を提案する。 eX-ViTは、堅牢な解釈可能な特徴を共同で発見し、予測を行うことができる。
参考スコア（独自算出の注目度）: 19.311318200149383
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently vision transformer models have become prominent models for a range of vision tasks. These models, however, are usually opaque with weak feature interpretability. Moreover, there is no method currently built for an intrinsically interpretable transformer, which is able to explain its reasoning process and provide a faithful explanation. To close these crucial gaps, we propose a novel vision transformer dubbed the eXplainable Vision Transformer (eX-ViT), an intrinsically interpretable transformer model that is able to jointly discover robust interpretable features and perform the prediction. Specifically, eX-ViT is composed of the Explainable Multi-Head Attention (E-MHA) module, the Attribute-guided Explainer (AttE) module and the self-supervised attribute-guided loss. The E-MHA tailors explainable attention weights that are able to learn semantically interpretable representations from local patches in terms of model decisions with noise robustness. Meanwhile, AttE is proposed to encode discriminative attribute features for the target object through diverse attribute discovery, which constitutes faithful evidence for the model's predictions. In addition, a self-supervised attribute-guided loss is developed for our eX-ViT, which aims at learning enhanced representations through the attribute discriminability mechanism and attribute diversity mechanism, to localize diverse and discriminative attributes and generate more robust explanations. As a result, we can uncover faithful and robust interpretations with diverse attributes through the proposed eX-ViT.
Abstract（参考訳）: 近年、視覚トランスモデルは様々な視覚タスクの顕著なモデルとなっている。しかし、これらのモデルは通常、弱い特徴解釈性を持つ不透明である。さらに、本質的に解釈可能なトランスフォーマーのために構築された手法はなく、その推論プロセスを説明し、忠実な説明を提供することができる。これらの重要なギャップを埋めるために,本論文では,説明可能な視覚トランスフォーマ (ex-vit) と呼ばれる新しい視覚トランスフォーマを提案する。具体的には、eX-ViTはExplainable Multi-Head Attention (E-MHA)モジュール、Attribute-Guided Explainer (AttE)モジュール、および自己管理属性誘導損失からなる。 E-MHAは、ノイズ堅牢性のあるモデル決定の観点から、局所パッチから意味論的に解釈可能な表現を学習できる、説明可能な注意重みを調整します。一方、AttEは、モデルの予測に対する忠実な証拠を構成する多様な属性発見を通じて、対象対象の識別的属性特徴を符号化する。さらに,属性識別可能性機構と属性多様性機構を通じて拡張表現を学習し,多様な属性を局所化し,より頑健な説明を生成することを目的とした,自己教師付き属性誘導損失を開発した。その結果、提案したeX-ViTにより、多様な属性を持つ忠実で堅牢な解釈を明らかにすることができる。

関連論文リスト

MASCOTS: Model-Agnostic Symbolic COunterfactual explanations for Time Series [4.664512594743523]
モデルに依存しない方法で有意義で多様な対実観測を生成するMASCOTSを導入する。シンボリックな特徴空間で操作することで、MASCOTSは元のデータとモデルへの忠実さを維持しながら解釈可能性を高める。
論文参考訳（メタデータ） (2025-03-28T12:48:12Z)
A Quantitative Evaluation of the Expressivity of BMI, Pose and Gender in Body Embeddings for Recognition and Identification [56.10719736365069]
人物再識別(ReID)システムは、画像またはビデオフレーム間で個人を識別する。多くのReID法は、性別、ポーズ、身体質量指数(BMI)などのセンシティブな属性の影響を受けている。表現性の概念をボディ認識領域に拡張し、ReIDモデルがどのようにこれらの属性をエンコードするかをよりよく理解します。
論文参考訳（メタデータ） (2025-03-09T05:15:54Z)
ViTmiX: Vision Transformer Explainability Augmented by Mixed Visualization Methods [1.1650821883155187]
本稿では,ViTモデルの解釈可能性を高めるために,複数の説明可能性手法を混合したハイブリッドアプローチを提案する。実験の結果,このハイブリッド手法は個々の手法と比較して,ViTモデルの解釈可能性を大幅に向上することがわかった。説明可能性の向上を定量化するために, ピジョンホールの原理を適用した, ポストホックな説明可能性尺度を導入した。
論文参考訳（メタデータ） (2024-12-18T18:18:19Z)
The Mechanics of Conceptual Interpretation in GPT Models: Interpretative Insights [10.777646083061395]
本稿では,大規模言語モデルにおける概念化機構を明らかにする知識編集の革新的バリエーションである概念編集を紹介する。我々は、トランスモデルのマルチ層パーセプトロン(MLP)、マルチヘッドアテンション(MHA)、および隠れ状態成分を解析する。我々の研究は、LLMにおける複雑な階層化されたセマンティック処理の性質と、これらのモデルにおける特定の概念の分離と修正の課題を強調している。
論文参考訳（メタデータ） (2024-08-05T18:50:08Z)
LatentExplainer: Explaining Latent Representations in Deep Generative Models with Multi-modal Foundation Models [4.675123839851372]
textitLatentExplainerは、深層生成モデルにおける潜伏変数の意味論的意味のある説明を自動的に生成するフレームワークである。我々のアプローチは潜伏変数を摂動させ、生成されたデータの変化を解釈し、マルチモーダルな大言語モデル(MLLM)を用いて人間の理解可能な説明を生成する。
論文参考訳（メタデータ） (2024-06-21T04:39:03Z)
Attention Mechanisms Don't Learn Additive Models: Rethinking Feature Importance for Transformers [12.986126243018452]
我々は,変圧器のフレームワークに合わせて設計された新しい代理モデルであるSoftmax-Linked Additive Log-Odds Model (SLALOM)を紹介する。 SLALOMは、合成データセットと実世界のデータセットの両方にわたって、忠実で洞察に富んだ説明を提供する能力を示している。
論文参考訳（メタデータ） (2024-05-22T11:14:00Z)
Uncertainty in latent representations of variational autoencoders optimized for visual tasks [3.9504737666460037]
変分オートエンコーダ(VAE)の推論特性について検討する。従来のコンピュータビジョンからインスピレーションを得て、VAEに誘導バイアスを導入する。復元された推論能力は、推論ネットワークでモチーフを開発することによって提供される。
論文参考訳（メタデータ） (2024-04-23T16:26:29Z)
Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文参考訳（メタデータ） (2024-04-03T10:11:22Z)
Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文参考訳（メタデータ） (2023-01-20T16:45:34Z)
SIM-Trans: Structure Information Modeling Transformer for Fine-grained Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文参考訳（メタデータ） (2022-08-31T03:00:07Z)
ELUDE: Generating interpretable explanations via a decomposition into labelled and unlabelled features [23.384134043048807]
モデルの予測を2つの部分に分解する説明フレームワークを開発する。後者を識別することで、モデルの"説明できない"部分を分析することができます。また,同機能領域で訓練された複数のモデルに対して,非競合機能セットが一般化可能であることを示す。
論文参考訳（メタデータ） (2022-06-15T17:36:55Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Learning Generative Vision Transformer with Energy-Based Latent Space for Saliency Prediction [51.80191416661064]
本稿では,有意な物体検出に先立って,潜伏変数を持つ新しい視覚変換器を提案する。ビジョントランスネットワークとエネルギーベース先行モデルの両方は、マルコフ連鎖モンテカルロによる最大推定を通じて共同で訓練される。生成型視覚変換器により、画像から容易に画素単位の不確実性マップを得ることができ、画像から唾液濃度を予測するためのモデル信頼度を示す。
論文参考訳（メタデータ） (2021-12-27T06:04:33Z)
Generative Counterfactuals for Neural Networks via Attribute-Informed Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文参考訳（メタデータ） (2021-01-18T08:37:13Z)
Transformer-based Conditional Variational Autoencoder for Controllable Story Generation [39.577220559911055]
ニューラルストーリー生成のための大規模潜時変数モデル (LVM) を, 生成効率と制御性という2つのスレッドで検討した。我々は、トランスフォーマーの時代において、本質的に表現学習の力である潜在変数モデリングを復活させることを提唱する。具体的には,遅延表現ベクトルをTransformerベースの事前学習アーキテクチャと統合し,条件付き変分オートエンコーダ(CVAE)を構築する。
論文参考訳（メタデータ） (2021-01-04T08:31:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。