論文の概要: Learning to Estimate Shapley Values with Vision Transformers
- arxiv url: http://arxiv.org/abs/2206.05282v1
- Date: Fri, 10 Jun 2022 07:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 14:26:44.659144
- Title: Learning to Estimate Shapley Values with Vision Transformers
- Title(参考訳): 視覚変換器を用いた共有価値推定の学習
- Authors: Ian Covert, Chanwoo Kim, Su-In Lee
- Abstract要約: 視覚変換器(ViT)におけるShapley値の実現
まず、注意マスキング手法を用いて、部分的な情報を用いたVTの評価を行う。
そこで我々は,個別の学習的説明モデルを用いて,Shapley値の説明を生成する手法を開発した。
- 参考スコア(独自算出の注目度): 24.772109639120405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have become a default architecture in computer vision, but
understanding what drives their predictions remains a challenging problem.
Current explanation approaches rely on attention values or input gradients, but
these give a limited understanding of a model's dependencies. Shapley values
offer a theoretically sound alternative, but their computational cost makes
them impractical for large, high-dimensional models. In this work, we aim to
make Shapley values practical for vision transformers (ViTs). To do so, we
first leverage an attention masking approach to evaluate ViTs with partial
information, and we then develop a procedure for generating Shapley value
explanations via a separate, learned explainer model. Our experiments compare
Shapley values to many baseline methods (e.g., attention rollout, GradCAM,
LRP), and we find that our approach provides more accurate explanations than
any existing method for ViTs.
- Abstract(参考訳): トランスフォーマーはコンピュータビジョンではデフォルトのアーキテクチャになっているが、予測を駆動するものを理解することは難しい問題である。
現在の説明アプローチは注意値や入力勾配に依存するが、これらはモデルの依存性を限定的に理解する。
シャプリーの値は理論的に正しい代替手段を提供するが、計算コストは大きな高次元モデルでは実用的でない。
本研究では,視覚変換器(ViT)のShapley値を実現することを目的とする。
そこで,まず注意マスキング手法を用いて部分的情報を用いたvitの評価を行い,個別に学習した説明モデルを用いてシェープリー値を生成する手法を開発した。
我々の実験はShapley値と多くのベースライン手法(例えば、注意ロールアウト、GradCAM、LRP)を比較し、我々の手法は既存のViTの手法よりも正確な説明を提供する。
関連論文リスト
- Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - From Shapley Values to Generalized Additive Models and back [16.665883787432858]
我々は$n$-Shapley Valuesを紹介します。これはShapley Valuesの自然な拡張で、$n$までの相互作用項による個々の予測を説明します。
Shapley-GAMから任意の順序でShapley Valuesを計算し、これらの説明の限界について正確な洞察を与える。
技術的には、値関数を選択する異なる方法と元の関数の異なる機能分解との間には、1対1の対応があることが示される。
論文 参考訳(メタデータ) (2022-09-08T19:37:06Z) - Combining Counterfactuals With Shapley Values To Explain Image Models [13.671174461441304]
我々は、反事実を生成し、Shapley値を推定するパイプラインを開発する。
我々は強い公理的保証を持つ対照的で解釈可能な説明を得る。
論文 参考訳(メタデータ) (2022-06-14T18:23:58Z) - InteL-VAEs: Adding Inductive Biases to Variational Auto-Encoders via
Intermediary Latents [60.785317191131284]
本稿では,潜伏変数の中間集合を用いて,制御可能なバイアスでVAEを学習するための簡易かつ効果的な手法を提案する。
特に、学習した表現に対して、スパーシリティやクラスタリングといった望ましいプロパティを課すことができます。
これにより、InteL-VAEはより優れた生成モデルと表現の両方を学ぶことができる。
論文 参考訳(メタデータ) (2021-06-25T16:34:05Z) - Accurate Shapley Values for explaining tree-based models [0.0]
木構造を効率的に利用し,最先端の手法よりも精度の高い2つのシェープ値推定器を導入する。
これらのメソッドはPythonパッケージとして利用できる。
論文 参考訳(メタデータ) (2021-06-07T17:35:54Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Predictive and Causal Implications of using Shapley Value for Model
Interpretation [6.744385328015561]
我々は、予測モデルと因果モデルの両方において重要な概念である、シェープ価値と条件独立の関係を確立した。
その結果,モデルから高いShapley値を持つ変数を排除しても必ずしも予測性能を損なうとは限らないことが示唆された。
さらに重要なことに、変数のShapley値は、関心の対象との因果関係を反映しない。
論文 参考訳(メタデータ) (2020-08-12T01:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。