Fugu-MT 論文翻訳(概要): Inspecting Explainability of Transformer Models with Additional Statistical Information

論文の概要: Inspecting Explainability of Transformer Models with Additional Statistical Information

arxiv url: http://arxiv.org/abs/2311.11378v1
Date: Sun, 19 Nov 2023 17:22:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 20:46:04.406742
Title: Inspecting Explainability of Transformer Models with Additional Statistical Information
Title（参考訳）: 統計情報を付加した変圧器モデルの説明可能性の検討
Authors: Hoang C. Nguyen, Haeil Lee, Junmo Kim
Abstract要約: Cheferらは、各イメージパッチの重要性を示すために注意層を組み合わせることで、視覚およびマルチモーダルタスク上のトランスフォーマーを効果的に可視化することができる。しかし、Swin Transformerのような他の変種のTransformerに適用する場合、この方法は予測対象に集中できない。本手法は,Swin Transformer と ViT が持つ説明可能性の理解に有効であることを示す。
参考スコア（独自算出の注目度）: 27.04589064942369
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer becomes more popular in the vision domain in recent years so there is a need for finding an effective way to interpret the Transformer model by visualizing it. In recent work, Chefer et al. can visualize the Transformer on vision and multi-modal tasks effectively by combining attention layers to show the importance of each image patch. However, when applying to other variants of Transformer such as the Swin Transformer, this method can not focus on the predicted object. Our method, by considering the statistics of tokens in layer normalization layers, shows a great ability to interpret the explainability of Swin Transformer and ViT.
Abstract（参考訳）: 近年、視覚領域ではトランスフォーマーがより普及しているため、それを視覚化することでトランスフォーマーモデルを効果的に解釈する方法を見つける必要がある。最近の研究でcheferらは、各イメージパッチの重要性を示すために注意層を組み合わせることで、視覚とマルチモーダルタスクのトランスフォーマーを効果的に可視化できる。しかし、Swin Transformerのような他の変種のTransformerに適用する場合、この方法は予測対象に集中できない。本手法は,層正規化層におけるトークンの統計を考慮し,スウィントランスとvitの解釈可能性を示す。

関連論文リスト

Disentangling Visual Transformers: Patch-level Interpretability for Image Classification [2.899118947717404]
Hindered Transformer (HiT) を提案する。 HiTはパッチレベルの情報の線形結合と解釈できる。説明可能性の観点から、我々のアプローチの利点は、パフォーマンスにおいて合理的なトレードオフをもたらすことを示しています。
論文参考訳（メタデータ） (2025-02-24T14:30:29Z)
SwinStyleformer is a favorable choice for image inversion [2.8115030277940947]
本稿では,SwinStyleformerと呼ばれるトランスフォーマー構造インバージョンネットワークを提案する。実験の結果、トランスフォーマーのバックボーンによるインバージョンネットワークは、画像の反転に成功しなかった。
論文参考訳（メタデータ） (2024-06-19T02:08:45Z)
On Convolutional Vision Transformers for Yield Prediction [0.0]
コンボリューション・ビジョン・トランスフォーマー (CvT) は、現在多くのビジョンタスクにおいて最先端の結果を達成しているビジョン・トランスフォーマーを評価するためにテストされている。 XGBoostやCNNなど,広くテストされているメソッドよりもパフォーマンスが悪くなるが,Transformerが収量予測を改善する可能性を示唆している。
論文参考訳（メタデータ） (2024-02-08T10:50:12Z)
Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文参考訳（メタデータ） (2023-01-20T16:45:34Z)
3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文参考訳（メタデータ） (2022-08-08T17:59:11Z)
SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文参考訳（メタデータ） (2022-08-03T12:57:00Z)
HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。 HiViTはMIMで高い効率と優れたパフォーマンスを享受する。 ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文参考訳（メタデータ） (2022-05-30T09:34:44Z)
Towards Lightweight Transformer via Group-wise Transformation for Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。 LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文参考訳（メタデータ） (2022-04-16T11:30:26Z)
Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。 ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文参考訳（メタデータ） (2021-08-03T18:04:31Z)
A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文参考訳（メタデータ） (2020-12-23T09:37:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。