論文の概要: Examining the Difference Among Transformers and CNNs with Explanation
Methods
- arxiv url: http://arxiv.org/abs/2212.06872v1
- Date: Tue, 13 Dec 2022 19:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:52:44.734625
- Title: Examining the Difference Among Transformers and CNNs with Explanation
Methods
- Title(参考訳): 説明法による変圧器とCNNの違いの検討
- Authors: Mingqi Jiang, Saeed Khorram and Li Fuxin
- Abstract要約: 本稿では,データセット全体に対して深い説明アルゴリズムを適用する手法を提案する。
我々は、畳み込みネットワーク(CNN)、グローバルアテンションネットワーク、ローカルアテンションネットワークなど、さまざまなタイプの視覚認識バックボーンを比較した。
- 参考スコア(独自算出の注目度): 4.550597218580107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a methodology that systematically applies deep explanation
algorithms on a dataset-wide basis, to compare different types of visual
recognition backbones, such as convolutional networks (CNNs), global attention
networks, and local attention networks. Examination of both qualitative
visualizations and quantitative statistics across the dataset helps us to gain
intuitions that are not just anecdotal, but are supported by the statistics
computed on the entire dataset. Specifically, we propose two methods. The first
one, sub-explanation counting, systematically searches for minimally-sufficient
explanations of all images and count the amount of sub-explanations for each
network. The second one, called cross-testing, computes salient regions using
one network and then evaluates the performance by only showing these regions as
an image to other networks. Through a combination of qualitative insights and
quantitative statistics, we illustrate that 1) there are significant
differences between the salient features of CNNs and attention models; 2) the
occlusion-robustness in local attention models and global attention models may
come from different decision-making mechanisms.
- Abstract(参考訳): 提案手法は,畳み込みネットワーク(CNN)やグローバルアテンションネットワーク,ローカルアテンションネットワークなど,さまざまなタイプの視覚認識バックボーンを比較し,データセット全体の深い説明アルゴリズムを体系的に適用する手法である。
定性的な視覚化とデータセット全体の量的統計の両方を調べることは、説明的なだけでなく、データセット全体に計算された統計によって支持される直観を得るのに役立ちます。
具体的には2つの方法を提案する。
第1のサブエクスラレーションカウントは、すべての画像の最小限の十分な説明を体系的に検索し、各ネットワークのサブエクスラレーションの量をカウントする。
2つめはクロステストと呼ばれ、ひとつのネットワークを使ってサルエント領域を計算し、その領域を他のネットワークにイメージとして示すだけでパフォーマンスを評価する。
質的な洞察と定量的統計を組み合わせることで
1)CNNの特徴と注意モデルとの間に有意な差異がある。
2) 局所注意モデルおよびグローバル注意モデルにおける咬合乱れは, 異なる意思決定機構から生じる可能性がある。
関連論文リスト
- Normalization in Proportional Feature Spaces [49.48516314472825]
データ表現、特徴付け、可視化、分析、比較、分類、モデリングにおいて、正規化は重要な中心的な役割を果たす。
適切な正規化手法の選択は、関連する特徴の種類と特徴を考慮する必要がある。
論文 参考訳(メタデータ) (2024-09-17T17:46:27Z) - Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Bayesian Unsupervised Disentanglement of Anatomy and Geometry for Deep Groupwise Image Registration [50.62725807357586]
本稿では,マルチモーダル群画像登録のための一般ベイズ学習フレームワークを提案する。
本稿では,潜在変数の推論手順を実現するために,新しい階層的変分自動符号化アーキテクチャを提案する。
心臓、脳、腹部の医療画像から4つの異なるデータセットを含む,提案された枠組みを検証する実験を行った。
論文 参考訳(メタデータ) (2024-01-04T08:46:39Z) - From Bricks to Bridges: Product of Invariances to Enhance Latent Space Communication [19.336940758147442]
異なるニューラルネットワークによって学習された表現は、モデルが同様の誘導バイアスの下で訓練されたときに構造的類似性を隠蔽することが観察されている。
我々は,不変成分の積空間を潜在表現の上に構築し,その表現に不変量の集合を直接組み込む汎用的手法を導入する。
我々は,ゼロショット縫合設定において,一貫した遅延類似性および下流性能向上を観察し,分類および再構成タスクに対するソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-02T13:55:38Z) - SO(2) and O(2) Equivariance in Image Recognition with
Bessel-Convolutional Neural Networks [63.24965775030674]
この研究はベッセル畳み込みニューラルネットワーク(B-CNN)の開発を示す
B-CNNは、ベッセル関数に基づく特定の分解を利用して、画像とフィルタの間のキー操作を変更する。
他の手法と比較して,B-CNNの性能を評価するために検討を行った。
論文 参考訳(メタデータ) (2023-04-18T18:06:35Z) - Identifiability Results for Multimodal Contrastive Learning [72.15237484019174]
本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
論文 参考訳(メタデータ) (2023-03-16T09:14:26Z) - Interpretable Diversity Analysis: Visualizing Feature Representations In
Low-Cost Ensembles [0.0]
本稿では,多様性を定性的に分析できるいくつかの解釈可能性手法を提案する。
2つの低コストアンサンブルアルゴリズムを用いて,子ネットワーク間の特徴表現の多様性を比較することによって,これらの手法を実証する。
論文 参考訳(メタデータ) (2023-02-12T00:32:03Z) - Unsupervised Multimodal Change Detection Based on Structural
Relationship Graph Representation Learning [40.631724905575034]
教師なしマルチモーダル変化検出は、時間に敏感な緊急アプリケーションにおいて重要な役割を果たす、実用的で困難なトピックである。
マルチモーダル画像における2種類のモダリティ非依存構造関係を利用する。
本稿では,2つの構造関係の類似性を測定するための構造関係グラフ表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-03T13:55:08Z) - Fidelity of Ensemble Aggregation for Saliency Map Explanations using
Bayesian Optimization Techniques [0.0]
我々は,異なる画素ベースのアグリゲーションスキームを新しい説明を生成するために提示し,比較する。
個々の説明の差異を集約プロセスに組み込む。
また,複数の正規化手法がアンサンブルアグリゲーションに与える影響を解析した。
論文 参考訳(メタデータ) (2022-07-04T16:34:12Z) - IMACS: Image Model Attribution Comparison Summaries [16.80986701058596]
我々は,勾配に基づくモデル属性とアグリゲーションと可視化技術を組み合わせたIMACSを提案する。
IMACSは評価データセットから適切な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。
本稿では,衛星画像上で訓練した2つのモデル間の領域シフトによる行動差を明らかにする方法を示す。
論文 参考訳(メタデータ) (2022-01-26T21:35:14Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。