論文の概要: DAVE: Distribution-aware Attribution via ViT Gradient Decomposition
- arxiv url: http://arxiv.org/abs/2602.06613v1
- Date: Fri, 06 Feb 2026 11:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.374174
- Title: DAVE: Distribution-aware Attribution via ViT Gradient Decomposition
- Title(参考訳): DAVE: ViTグラディエント分解による分布認識属性
- Authors: Adam Wróbel, Siddhartha Gairola, Jacek Tabor, Bernt Schiele, Bartosz Zieliński, Dawid Rymarczyk,
- Abstract要約: 視覚変換器(ViT)はコンピュータビジョンにおいて支配的なアーキテクチャとなっている。
本稿では, DAVE textit(underlineDistribution-aware underlineAttribution via UnderlineViT Gradient DunderlineEcomposition)を紹介する。
- 参考スコア(独自算出の注目度): 48.89010827624572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have become a dominant architecture in computer vision, yet producing stable and high-resolution attribution maps for these models remains challenging. Architectural components such as patch embeddings and attention routing often introduce structured artifacts in pixel-level explanations, causing many existing methods to rely on coarse patch-level attributions. We introduce DAVE \textit{(\underline{D}istribution-aware \underline{A}ttribution via \underline{V}iT Gradient D\underline{E}composition)}, a mathematically grounded attribution method for ViTs based on a structured decomposition of the input gradient. By exploiting architectural properties of ViTs, DAVE isolates locally equivariant and stable components of the effective input--output mapping. It separates these from architecture-induced artifacts and other sources of instability.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいて支配的なアーキテクチャとなっているが、安定かつ高解像度の属性マップを生成することは依然として困難である。
パッチ埋め込みやアテンションルーティングのようなアーキテクチャコンポーネントは、しばしばピクセルレベルの説明で構造化されたアーティファクトを導入し、多くの既存のメソッドがパッチレベルの属性を粗いものにしている。
DAVE \textit{(\underline{D}istribution-aware \underline{A}ttribution via \underline{V}iT Gradient D\underline{E}composition)} は、入力勾配の構造化分解に基づいて、数学的に基底化されたViTの帰属法である。
DAVEは、ViTのアーキテクチャ特性を利用して、効率的な入出力マッピングの局所的同変および安定成分を分離する。
これらは、アーキテクチャによって引き起こされたアーティファクトや他の不安定なソースから分離する。
関連論文リスト
- Hybrid Dual-Path Linear Transformations for Efficient Transformer Architectures [0.0]
本稿では,アフィン変換を2つのトポロジカルな経路に分解するHybrid Dual-Path Linear (HDPL)演算子について紹介する。
FineWeb-Eduデータセットの実験では、HDPLアーキテクチャが標準のLlamaスタイルのベースラインより優れていることが示されている。
本稿では,トランスフォーマーのバックボーン内での確率的潜在空間の明示的な物質化が,重要な建築的余裕として果たす役割について論じる。
論文 参考訳(メタデータ) (2026-02-05T20:16:10Z) - Equi-ViT: Rotational Equivariant Vision Transformer for Robust Histopathology Analysis [4.388994056961038]
等価な畳み込みカーネルをViTアーキテクチャのパッチ埋め込みステージに統合するEqui-ViTを提案する。
Equi-ViTは、画像の向きによって、良好な回転整合パッチ埋め込みと安定した分類性能を実現する。
論文 参考訳(メタデータ) (2026-01-14T04:03:20Z) - High-Fidelity Differential-information Driven Binary Vision Transformer [38.19452875887032]
ビジョントランスフォーマーのバイナリ化(ViT)は、高い計算/ストレージ要求とエッジデバイスデプロイメントの制約の間のトレードオフに対処する、有望なアプローチを提供する。
本稿では,従来の ViT アーキテクチャと計算効率を両立させながら,高情報化が可能な新しいバイナリ ViT である DIDB-ViT を提案する。
論文 参考訳(メタデータ) (2025-07-03T00:59:53Z) - Towards Differential Handling of Various Blur Regions for Accurate Image Deblurring [0.0]
本稿では,異なるぼかし領域に対して差分処理を行うディファレンシャルハンドリングネットワーク(DHNet)を提案する。
具体的には、非線形特性を劣化ネットワークに統合するVolterraブロック(VBlock)を設計する。
モデルがぼやけた領域の様々な劣化度に適応的に対応できるようにするため,分解度認識エキスパートモジュールを考案した。
論文 参考訳(メタデータ) (2025-02-27T01:37:30Z) - Compressing Image-to-Image Translation GANs Using Local Density
Structures on Their Learned Manifold [69.33930972652594]
GAN(Generative Adversarial Networks)は、画像から画像への変換のための複雑なデータ分散のモデル化において、顕著な成功を収めている。
既存のGAN圧縮法は主に知識蒸留や畳み込み分類器の刈り取り技術に依存している。
学習多様体上の元のパラメータ重モデルの密度構造を保存するために,プルーンドモデルを明示的に促すことにより,新しいアプローチを提案する。
画像変換GANモデルであるPix2PixとCycleGANについて,様々なベンチマークデータセットとアーキテクチャを用いて実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-22T15:43:12Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Rethinking the Zigzag Flattening for Image Reading [48.976491898131265]
我々はHilbert fractal flattening (HF) をコンピュータビジョンにおけるシーケンスオーダの別の方法として検討する。
HFは空間的局所性を維持する上で他の曲線よりも優れていることが証明されている。
ほとんどのディープニューラルネットワーク(DNN)に簡単に接続できる。
論文 参考訳(メタデータ) (2022-02-21T13:53:04Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Demystifying Inductive Biases for $\eta$-VAE Based Architectures [19.53632220171481]
私たちは、VAEベースのアーキテクチャの成功に責任を持つ帰納バイアスに光を当てました。
古典的なデータセットでは, 生成因子によって誘導される分散構造は, VAEの目的によって促進される潜伏方向と都合よく一致していることを示す。
論文 参考訳(メタデータ) (2021-02-12T23:57:20Z) - Learning Propagation Rules for Attribution Map Generation [146.71503336770886]
本稿では,属性マップを生成する専用手法を提案する。
具体的には,各ピクセルに対して適応的な伝搬規則を可能にする学習可能なプラグインモジュールを提案する。
導入された学習可能なモジュールは、高階差分サポートを備えた任意のオートグレードフレームワークでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-14T16:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。