論文の概要: B-Cos Aligned Transformers Learn Human-Interpretable Features
- arxiv url: http://arxiv.org/abs/2401.08868v1
- Date: Tue, 16 Jan 2024 22:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:38:40.614694
- Title: B-Cos Aligned Transformers Learn Human-Interpretable Features
- Title(参考訳): B-Cosアライメント変換器は人間の解釈可能な特徴を学習する
- Authors: Manuel Tran and Amal Lahiani and Yashin Dicente Cid and Melanie
Boxberg and Peter Lienemann and Christian Matek and Sophia J. Wagner and
Fabian J. Theis and Eldad Klaiman and Tingying Peng
- Abstract要約: Vision Transformers (ViT) と Swin Transformers (Swin) は現在、計算病理学の最先端技術である。
本稿では,B-cos Vision Transformer (BvT) と呼ばれる,より解釈可能なアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 2.624215133192481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) and Swin Transformers (Swin) are currently
state-of-the-art in computational pathology. However, domain experts are still
reluctant to use these models due to their lack of interpretability. This is
not surprising, as critical decisions need to be transparent and
understandable. The most common approach to understanding transformers is to
visualize their attention. However, attention maps of ViTs are often
fragmented, leading to unsatisfactory explanations. Here, we introduce a novel
architecture called the B-cos Vision Transformer (BvT) that is designed to be
more interpretable. It replaces all linear transformations with the B-cos
transform to promote weight-input alignment. In a blinded study, medical
experts clearly ranked BvTs above ViTs, suggesting that our network is better
at capturing biomedically relevant structures. This is also true for the B-cos
Swin Transformer (Bwin). Compared to the Swin Transformer, it even improves the
F1-score by up to 4.7% on two public datasets.
- Abstract(参考訳): Vision Transformers (ViT) と Swin Transformers (Swin) は現在、計算病理学の最先端にある。
しかし、ドメインの専門家は解釈可能性の欠如のため、これらのモデルの使用をいまだに控えている。
重要な決定は透明で理解しなくてはならないため、これは驚くべきことではない。
トランスフォーマーを理解する最も一般的なアプローチは、彼らの注意を可視化することだ。
しかし、ViTの注意マップはしばしば断片化され、不満足な説明につながる。
本稿では,B-cos Vision Transformer (BvT) と呼ばれる,より解釈可能なアーキテクチャを提案する。
すべての線形変換をB-cos変換に置き換え、重み-入力アライメントを促進する。
盲目な調査では、医療専門家が明らかにBvTsをViTsより上位にランク付けし、我々のネットワークは生医学的な関連構造を捉えるのに優れていることを示唆している。
これはB-cos Swin Transformer (Bwin)にも当てはまる。
swin transformerと比較して、2つの公開データセットでf1-scoreを最大4.7%改善している。
関連論文リスト
- On Convolutional Vision Transformers for Yield Prediction [0.0]
コンボリューション・ビジョン・トランスフォーマー (CvT) は、現在多くのビジョンタスクにおいて最先端の結果を達成しているビジョン・トランスフォーマーを評価するためにテストされている。
XGBoostやCNNなど,広くテストされているメソッドよりもパフォーマンスが悪くなるが,Transformerが収量予測を改善する可能性を示唆している。
論文 参考訳(メタデータ) (2024-02-08T10:50:12Z) - Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles [65.54857068975068]
本稿では、この追加のバルクは不要であると論じる。
強いビジュアル・プレテキスト・タスク(MAE)で事前トレーニングを行うことで、最先端の多段階視覚変換器から全てのベル・アンド・ウィストルを除去することができる。
Hieraは、非常に単純な階層型視覚変換器で、従来のモデルよりも正確です。
論文 参考訳(メタデータ) (2023-06-01T17:59:58Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Transforming medical imaging with Transformers? A comparative review of
key properties, current progresses, and future perspectives [21.164122592628388]
ディープラーニングの最新技術進歩であるTransformerは、自然言語処理やコンピュータビジョンで普及している。
我々は、医療画像に対する最先端のTransformerベースのアプローチを包括的にレビューする。
論文 参考訳(メタデータ) (2022-06-02T16:38:31Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Transformer visualization via dictionary learning: contextualized
embedding as a linear superposition of transformer factors [15.348047288817478]
我々は,変圧器因子の線形重ね合わせとして,辞書学習を用いて「ブラックボックス」を開くことを提案する。
可視化により,変換因子によって得られた階層的意味構造を実演する。
この視覚化ツールによって、トランスフォーマーネットワークの動作に関するさらなる知識と理解が得られればと思っています。
論文 参考訳(メタデータ) (2021-03-29T20:51:33Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。