論文の概要: B-cos Alignment for Inherently Interpretable CNNs and Vision
Transformers
- arxiv url: http://arxiv.org/abs/2306.10898v2
- Date: Mon, 15 Jan 2024 09:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:36:09.001778
- Title: B-cos Alignment for Inherently Interpretable CNNs and Vision
Transformers
- Title(参考訳): 独立に解釈可能なCNNと視覚変換器のためのB-cosアライメント
- Authors: Moritz B\"ohle, Navdeeppal Singh, Mario Fritz, Bernt Schiele
- Abstract要約: 本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
このような変換の列は、完全なモデル計算を忠実に要約する単一の線形変換を誘導することを示す。
得られた説明は視覚的品質が高く,定量的解釈可能性指標下では良好に機能することを示す。
- 参考スコア(独自算出の注目度): 97.75725574963197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new direction for increasing the interpretability of deep neural
networks (DNNs) by promoting weight-input alignment during training. For this,
we propose to replace the linear transformations in DNNs by our novel B-cos
transformation. As we show, a sequence (network) of such transformations
induces a single linear transformation that faithfully summarises the full
model computations. Moreover, the B-cos transformation is designed such that
the weights align with relevant signals during optimisation. As a result, those
induced linear transformations become highly interpretable and highlight
task-relevant features. Importantly, the B-cos transformation is designed to be
compatible with existing architectures and we show that it can easily be
integrated into virtually all of the latest state of the art models for
computer vision - e.g. ResNets, DenseNets, ConvNext models, as well as Vision
Transformers - by combining the B-cos-based explanations with normalisation and
attention layers, all whilst maintaining similar accuracy on ImageNet. Finally,
we show that the resulting explanations are of high visual quality and perform
well under quantitative interpretability metrics.
- Abstract(参考訳): 本稿では,トレーニング中の重み入力アライメントを促進することにより,深層ニューラルネットワーク(dnn)の解釈性を高めるための新しい方向を提案する。
そこで我々は,新しいB-cos変換によりDNNの線形変換を置き換えることを提案する。
このような変換のシーケンス(ネットワーク)は、モデル全体の計算を忠実に要約する単一の線形変換を誘導する。
さらに、B-cos変換は、最適化中に重みが関連する信号と一致するように設計されている。
その結果、これらの線形変換は高度に解釈可能となり、タスク関連の特徴を強調している。
重要なことに、B-cos変換は既存のアーキテクチャと互換性があるように設計されており、ImageNetで同様の精度を維持しながら、B-cosベースの説明と正規化と注意層を組み合わせることで、ResNets、DenseNets、ConvNextモデルといった最新のコンピュータビジョンモデルに簡単に統合できることを示します。
最後に、得られた説明は視覚的品質が高く、定量的解釈可能性の指標下では良好に機能することを示す。
関連論文リスト
- B-cosification: Transforming Deep Neural Networks to be Inherently Interpretable [53.848005910548565]
B-コシフィケーション(B-cosification)は、既存の訓練済みモデルを本質的に解釈可能なものにするための新しいアプローチである。
B-コシフィケーションは、解釈可能性の観点から、スクラッチから訓練されたB-コシフィケーションモデルに匹敵するモデルが得られる。
論文 参考訳(メタデータ) (2024-11-01T16:28:11Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Transformers as Meta-Learners for Implicit Neural Representations [10.673855995948736]
Inlicit Neural Representations (INRs) は近年、離散表現よりもその利点を示してきた。
InRのハイパーネットとしてTransformerを利用する定式化を提案し,INRの重みの集合を直接構築する。
本稿では,3次元オブジェクトに対する2次元画像回帰とビュー合成を含む,異なるタスクや領域でINRを構築するための手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-08-04T17:54:38Z) - B-cos Networks: Alignment is All We Need for Interpretability [136.27303006772294]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。
B-コス変換は、完全なモデル計算を忠実に要約する単一の線形変換を誘導する。
VGGs、ResNets、InceptionNets、DenseNetsといった一般的なモデルに簡単に統合できることを示します。
論文 参考訳(メタデータ) (2022-05-20T16:03:29Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。