論文の概要: Inpainting the Gaps: A Novel Framework for Evaluating Explanation Methods in Vision Transformers
- arxiv url: http://arxiv.org/abs/2406.11534v1
- Date: Mon, 17 Jun 2024 13:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:42:04.944921
- Title: Inpainting the Gaps: A Novel Framework for Evaluating Explanation Methods in Vision Transformers
- Title(参考訳): ギャップの具体化:視覚変換器における説明手法の評価のための新しいフレームワーク
- Authors: Lokesh Badisa, Sumohana S. Channappayya,
- Abstract要約: 本研究では,textbfInpainting the Gaps (InG) と呼ばれる新しい評価フレームワークを提案する。
InGはPartImageNetデータセットに適用され、ビジョントランスフォーマー(ViT)の3つのトレーニング戦略に対する一般的な説明手法の性能を評価する。
我々の知る限りでは、InGはViT説明法の評価のための最初の半合成フレームワークである。
- 参考スコア(独自算出の注目度): 10.97134072427802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The perturbation test remains the go-to evaluation approach for explanation methods in computer vision. This evaluation method has a major drawback of test-time distribution shift due to pixel-masking that is not present in the training set. To overcome this drawback, we propose a novel evaluation framework called \textbf{Inpainting the Gaps (InG)}. Specifically, we propose inpainting parts that constitute partial or complete objects in an image. In this way, one can perform meaningful image perturbations with lower test-time distribution shifts, thereby improving the efficacy of the perturbation test. InG is applied to the PartImageNet dataset to evaluate the performance of popular explanation methods for three training strategies of the Vision Transformer (ViT). Based on this evaluation, we found Beyond Intuition and Generic Attribution to be the two most consistent explanation models. Further, and interestingly, the proposed framework results in higher and more consistent evaluation scores across all the ViT models considered in this work. To the best of our knowledge, InG is the first semi-synthetic framework for the evaluation of ViT explanation methods.
- Abstract(参考訳): 摂動試験は、コンピュータビジョンにおける説明法の評価手法として、現在でも継続して行われている。
この評価方法は、トレーニングセットに存在しない画素マスキングによるテスト時間分布シフトの大きな欠点を有する。
この欠点を克服するため,新しい評価フレームワークである \textbf{Inpainting the Gaps (InG)} を提案する。
具体的には、画像中の部分的または完全なオブジェクトを構成する部分の塗装を提案する。
これにより、少ないテスト時間分布シフトで有意義な画像摂動を行うことができ、摂動試験の有効性を向上させることができる。
InGはPartImageNetデータセットに適用され、ビジョントランスフォーマー(ViT)の3つのトレーニング戦略の一般的な説明手法の性能を評価する。
この評価に基づいて、Beyond IntuitionとGeneric Attributionが最も一貫した2つの説明モデルであることが判明した。
さらに,提案したフレームワークは,本研究で検討したすべてのViTモデルに対して,より高い,より一貫した評価結果をもたらす。
我々の知る限りでは、InGはViT説明法の評価のための最初の半合成フレームワークである。
関連論文リスト
- Mismatched: Evaluating the Limits of Image Matching Approaches and Benchmarks [9.388897214344572]
2次元画像からの3次元3次元再構成はコンピュータビジョンにおける活発な研究分野である。
伝統的にこの作業にはパラメトリック技術が用いられてきた。
近年の進歩は、学習ベースの方法にシフトしている。
論文 参考訳(メタデータ) (2024-08-29T11:16:34Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models [56.112302700630806]
我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。
主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。
提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
論文 参考訳(メタデータ) (2023-11-30T02:33:29Z) - Benchmark Generation Framework with Customizable Distortions for Image
Classifier Robustness [4.339574774938128]
本稿では,画像分類モデルのロバスト性を評価するために,逆ベンチマークを生成する新しいフレームワークを提案する。
当社のフレームワークでは,画像に最適な歪みの種類をカスタマイズすることが可能で,デプロイメントに関連する歪みに対処する上で有効である。
論文 参考訳(メタデータ) (2023-10-28T07:40:42Z) - A Fine-Grained Image Description Generation Method Based on Joint
Objectives [7.565093400979752]
本稿では, 共同目的物に基づく微細な画像記述生成モデルを提案する。
我々は、記述繰り返しと省略を扱う際のモデルの性能をより直感的に評価するために、新しいオブジェクトベースの評価指標を導入する。
実験の結果,提案手法はCIDErの評価基準を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-09-02T03:22:39Z) - Self-Supervised Pre-training of Vision Transformers for Dense Prediction
Tasks [2.160196691362033]
本稿では,高密度予測タスクのための視覚変換器の自己教師付き事前学習を提案する。
我々の戦略は、大域的な画像表現のみに基づく対照的な事前学習とは対照的に、密集した予測タスクに適したより良い局所的特徴を生み出す。
論文 参考訳(メタデータ) (2022-05-30T15:25:37Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - Revisiting The Evaluation of Class Activation Mapping for
Explainability: A Novel Metric and Experimental Analysis [54.94682858474711]
クラスアクティベーションマッピング(cam)アプローチは、アクティベーションマップの平均を重み付けすることで、効果的な可視化を提供する。
説明マップを定量化するための新しいメトリクスセットを提案し、より効果的な方法を示し、アプローチ間の比較を簡素化します。
論文 参考訳(メタデータ) (2021-04-20T21:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。