論文の概要: DAVE: Distribution-aware Attribution via ViT Gradient Decomposition
- arxiv url: http://arxiv.org/abs/2602.06613v1
- Date: Fri, 06 Feb 2026 11:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.374174
- Title: DAVE: Distribution-aware Attribution via ViT Gradient Decomposition
- Title(参考訳): DAVE: ViTグラディエント分解による分布認識属性
- Authors: Adam Wróbel, Siddhartha Gairola, Jacek Tabor, Bernt Schiele, Bartosz Zieliński, Dawid Rymarczyk,
- Abstract要約: 視覚変換器(ViT)はコンピュータビジョンにおいて支配的なアーキテクチャとなっている。
本稿では, DAVE textit(underlineDistribution-aware underlineAttribution via UnderlineViT Gradient DunderlineEcomposition)を紹介する。
- 参考スコア(独自算出の注目度): 48.89010827624572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have become a dominant architecture in computer vision, yet producing stable and high-resolution attribution maps for these models remains challenging. Architectural components such as patch embeddings and attention routing often introduce structured artifacts in pixel-level explanations, causing many existing methods to rely on coarse patch-level attributions. We introduce DAVE \textit{(\underline{D}istribution-aware \underline{A}ttribution via \underline{V}iT Gradient D\underline{E}composition)}, a mathematically grounded attribution method for ViTs based on a structured decomposition of the input gradient. By exploiting architectural properties of ViTs, DAVE isolates locally equivariant and stable components of the effective input--output mapping. It separates these from architecture-induced artifacts and other sources of instability.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいて支配的なアーキテクチャとなっているが、安定かつ高解像度の属性マップを生成することは依然として困難である。
パッチ埋め込みやアテンションルーティングのようなアーキテクチャコンポーネントは、しばしばピクセルレベルの説明で構造化されたアーティファクトを導入し、多くの既存のメソッドがパッチレベルの属性を粗いものにしている。
DAVE \textit{(\underline{D}istribution-aware \underline{A}ttribution via \underline{V}iT Gradient D\underline{E}composition)} は、入力勾配の構造化分解に基づいて、数学的に基底化されたViTの帰属法である。
DAVEは、ViTのアーキテクチャ特性を利用して、効率的な入出力マッピングの局所的同変および安定成分を分離する。
これらは、アーキテクチャによって引き起こされたアーティファクトや他の不安定なソースから分離する。
関連論文リスト
- High-Fidelity Differential-information Driven Binary Vision Transformer [38.19452875887032]
ビジョントランスフォーマーのバイナリ化(ViT)は、高い計算/ストレージ要求とエッジデバイスデプロイメントの制約の間のトレードオフに対処する、有望なアプローチを提供する。
本稿では,従来の ViT アーキテクチャと計算効率を両立させながら,高情報化が可能な新しいバイナリ ViT である DIDB-ViT を提案する。
論文 参考訳(メタデータ) (2025-07-03T00:59:53Z) - Towards Differential Handling of Various Blur Regions for Accurate Image Deblurring [0.0]
本稿では,異なるぼかし領域に対して差分処理を行うディファレンシャルハンドリングネットワーク(DHNet)を提案する。
具体的には、非線形特性を劣化ネットワークに統合するVolterraブロック(VBlock)を設計する。
モデルがぼやけた領域の様々な劣化度に適応的に対応できるようにするため,分解度認識エキスパートモジュールを考案した。
論文 参考訳(メタデータ) (2025-02-27T01:37:30Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Rethinking the Zigzag Flattening for Image Reading [48.976491898131265]
我々はHilbert fractal flattening (HF) をコンピュータビジョンにおけるシーケンスオーダの別の方法として検討する。
HFは空間的局所性を維持する上で他の曲線よりも優れていることが証明されている。
ほとんどのディープニューラルネットワーク(DNN)に簡単に接続できる。
論文 参考訳(メタデータ) (2022-02-21T13:53:04Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Learning Propagation Rules for Attribution Map Generation [146.71503336770886]
本稿では,属性マップを生成する専用手法を提案する。
具体的には,各ピクセルに対して適応的な伝搬規則を可能にする学習可能なプラグインモジュールを提案する。
導入された学習可能なモジュールは、高階差分サポートを備えた任意のオートグレードフレームワークでトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-14T16:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。