Fugu-MT 論文翻訳(概要): B-cos Alignment for Inherently Interpretable CNNs and Vision Transformers

論文の概要: B-cos Alignment for Inherently Interpretable CNNs and Vision Transformers

arxiv url: http://arxiv.org/abs/2306.10898v1
Date: Mon, 19 Jun 2023 12:54:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 17:59:37.360934
Title: B-cos Alignment for Inherently Interpretable CNNs and Vision Transformers
Title（参考訳）: 独立に解釈可能なCNNと視覚変換器のためのB-cosアライメント
Authors: Moritz B\"ohle, Navdeeppal Singh, Mario Fritz, Bernt Schiele
Abstract要約: 本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。このような変換の列は、完全なモデル計算を忠実に要約する単一の線形変換を誘導することを示す。得られた説明は視覚的品質が高く,定量的解釈可能性指標下では良好に機能することを示す。
参考スコア（独自算出の注目度）: 121.25016115383406
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a new direction for increasing the interpretability of deep neural networks (DNNs) by promoting weight-input alignment during training. For this, we propose to replace the linear transformations in DNNs by our novel B-cos transformation. As we show, a sequence (network) of such transformations induces a single linear transformation that faithfully summarises the full model computations. Moreover, the B-cos transformation is designed such that the weights align with relevant signals during optimisation. As a result, those induced linear transformations become highly interpretable and highlight task-relevant features. Importantly, the B-cos transformation is designed to be compatible with existing architectures and we show that it can easily be integrated into virtually all of the latest state of the art models for computer vision - e.g. ResNets, DenseNets, ConvNext models, as well as Vision Transformers - by combining the B-cos-based explanations with normalisation and attention layers, all whilst maintaining similar accuracy on ImageNet. Finally, we show that the resulting explanations are of high visual quality and perform well under quantitative interpretability metrics.
Abstract（参考訳）: 本稿では,トレーニング中の重み入力アライメントを促進することにより,深層ニューラルネットワーク(dnn)の解釈性を高めるための新しい方向を提案する。そこで我々は,新しいB-cos変換によりDNNの線形変換を置き換えることを提案する。このような変換のシーケンス(ネットワーク)は、モデル全体の計算を忠実に要約する単一の線形変換を誘導する。さらに、B-cos変換は、最適化中に重みが関連する信号と一致するように設計されている。その結果、これらの線形変換は高度に解釈可能となり、タスク関連の特徴を強調している。重要なことに、B-cos変換は既存のアーキテクチャと互換性があるように設計されており、ImageNetで同様の精度を維持しながら、B-cosベースの説明と正規化と注意層を組み合わせることで、ResNets、DenseNets、ConvNextモデルといった最新のコンピュータビジョンモデルに簡単に統合できることを示します。最後に、得られた説明は視覚的品質が高く、定量的解釈可能性の指標下では良好に機能することを示す。

関連論文リスト

DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer [1.456352735394398]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。これらの表現は、革新的なパッチトークン化プロセスを通じてトランスフォーマー入力に適応し、継承されたマルチスケールの帰納バイアスを保存する。
論文参考訳（メタデータ） (2025-06-15T22:42:57Z)
B-cosification: Transforming Deep Neural Networks to be Inherently Interpretable [53.848005910548565]
B-コシフィケーション(B-cosification)は、既存の訓練済みモデルを本質的に解釈可能なものにするための新しいアプローチである。 B-コシフィケーションは、解釈可能性の観点から、スクラッチから訓練されたB-コシフィケーションモデルに匹敵するモデルが得られる。
論文参考訳（メタデータ） (2024-11-01T16:28:11Z)
Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文参考訳（メタデータ） (2024-02-23T19:34:06Z)
Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文参考訳（メタデータ） (2023-01-20T16:45:34Z)
Transformers as Meta-Learners for Implicit Neural Representations [10.673855995948736]
Inlicit Neural Representations (INRs) は近年、離散表現よりもその利点を示してきた。 InRのハイパーネットとしてTransformerを利用する定式化を提案し,INRの重みの集合を直接構築する。本稿では,3次元オブジェクトに対する2次元画像回帰とビュー合成を含む,異なるタスクや領域でINRを構築するための手法の有効性を実証する。
論文参考訳（メタデータ） (2022-08-04T17:54:38Z)
B-cos Networks: Alignment is All We Need for Interpretability [136.27303006772294]
本稿では,深層ニューラルネットワーク(DNN)の学習における重み付けの促進による解釈可能性の向上に向けた新たな方向性を提案する。 B-コス変換は、完全なモデル計算を忠実に要約する単一の線形変換を誘導する。 VGGs、ResNets、InceptionNets、DenseNetsといった一般的なモデルに簡単に統合できることを示します。
論文参考訳（メタデータ） (2022-05-20T16:03:29Z)
Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文参考訳（メタデータ） (2021-05-31T16:20:03Z)
Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2021-03-24T18:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。