論文の概要: Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods
- arxiv url: http://arxiv.org/abs/2212.06872v4
- Date: Sat, 6 Apr 2024 09:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 05:46:40.101776
- Title: Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods
- Title(参考訳): 説明法による変圧器とCNNによる意思決定メカニズムの比較
- Authors: Mingqi Jiang, Saeed Khorram, Li Fuxin,
- Abstract要約: 本研究では、データセット全体に基づく深い説明アルゴリズムを適用して、異なる視覚認識バックボーンの意思決定について検討する。
TransformersとConvNeXtは、画像の複数の部分を共同で検討することで、より構成的であることが分かりました。
特徴利用の類似性に基づいて、異なるモデルのランドスケープをプロットする。
- 参考スコア(独自算出の注目度): 4.661764541283174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to gain insights about the decision-making of different visual recognition backbones, we propose two methodologies, sub-explanation counting and cross-testing, that systematically applies deep explanation algorithms on a dataset-wide basis, and compares the statistics generated from the amount and nature of the explanations. These methodologies reveal the difference among networks in terms of two properties called compositionality and disjunctivism. Transformers and ConvNeXt are found to be more compositional, in the sense that they jointly consider multiple parts of the image in building their decisions, whereas traditional CNNs and distilled transformers are less compositional and more disjunctive, which means that they use multiple diverse but smaller set of parts to achieve a confident prediction. Through further experiments, we pinpointed the choice of normalization to be especially important in the compositionality of a model, in that batch normalization leads to less compositionality while group and layer normalization lead to more. Finally, we also analyze the features shared by different backbones and plot a landscape of different models based on their feature-use similarity.
- Abstract(参考訳): 異なる視覚的認識バックボーンの意思決定に関する知見を得るために,データセット全体にわたって深い説明アルゴリズムを体系的に適用し,説明の量と性質から得られた統計を比較検討する,部分説明カウントとクロステストという2つの手法を提案する。
これらの手法は、構成性と可分性と呼ばれる2つの性質の観点から、ネットワーク間の差異を明らかにする。
トランスフォーマーとConvNeXtは、画像の複数の部分を共同で検討し、従来のCNNと蒸留トランスフォーマーはより構成的であり、より分離的であるため、複数の多様な、より小さな部品を用いて、自信ある予測を下すことができる。
さらなる実験を通じて、モデルの構成性において特に重要な正規化の選択は、バッチ正規化によって構成性が低下する一方、グループおよび層正規化はより重要となる。
最後に、異なるバックボーンで共有される機能を分析し、それらの機能利用の類似性に基づいて、異なるモデルのランドスケープをプロットする。
関連論文リスト
- Normalization in Proportional Feature Spaces [49.48516314472825]
データ表現、特徴付け、可視化、分析、比較、分類、モデリングにおいて、正規化は重要な中心的な役割を果たす。
適切な正規化手法の選択は、関連する特徴の種類と特徴を考慮する必要がある。
論文 参考訳(メタデータ) (2024-09-17T17:46:27Z) - Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Bayesian Unsupervised Disentanglement of Anatomy and Geometry for Deep Groupwise Image Registration [50.62725807357586]
本稿では,マルチモーダル群画像登録のための一般ベイズ学習フレームワークを提案する。
本稿では,潜在変数の推論手順を実現するために,新しい階層的変分自動符号化アーキテクチャを提案する。
心臓、脳、腹部の医療画像から4つの異なるデータセットを含む,提案された枠組みを検証する実験を行った。
論文 参考訳(メタデータ) (2024-01-04T08:46:39Z) - From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - SO(2) and O(2) Equivariance in Image Recognition with
Bessel-Convolutional Neural Networks [63.24965775030674]
この研究はベッセル畳み込みニューラルネットワーク(B-CNN)の開発を示す
B-CNNは、ベッセル関数に基づく特定の分解を利用して、画像とフィルタの間のキー操作を変更する。
他の手法と比較して,B-CNNの性能を評価するために検討を行った。
論文 参考訳(メタデータ) (2023-04-18T18:06:35Z) - Identifiability Results for Multimodal Contrastive Learning [72.15237484019174]
本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
論文 参考訳(メタデータ) (2023-03-16T09:14:26Z) - Interpretable Diversity Analysis: Visualizing Feature Representations In
Low-Cost Ensembles [0.0]
本稿では,多様性を定性的に分析できるいくつかの解釈可能性手法を提案する。
2つの低コストアンサンブルアルゴリズムを用いて,子ネットワーク間の特徴表現の多様性を比較することによって,これらの手法を実証する。
論文 参考訳(メタデータ) (2023-02-12T00:32:03Z) - Unsupervised Multimodal Change Detection Based on Structural
Relationship Graph Representation Learning [40.631724905575034]
教師なしマルチモーダル変化検出は、時間に敏感な緊急アプリケーションにおいて重要な役割を果たす、実用的で困難なトピックである。
マルチモーダル画像における2種類のモダリティ非依存構造関係を利用する。
本稿では,2つの構造関係の類似性を測定するための構造関係グラフ表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-03T13:55:08Z) - Fidelity of Ensemble Aggregation for Saliency Map Explanations using
Bayesian Optimization Techniques [0.0]
我々は,異なる画素ベースのアグリゲーションスキームを新しい説明を生成するために提示し,比較する。
個々の説明の差異を集約プロセスに組み込む。
また,複数の正規化手法がアンサンブルアグリゲーションに与える影響を解析した。
論文 参考訳(メタデータ) (2022-07-04T16:34:12Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。