論文の概要: Fill in the blanks: Rethinking Interpretability in vision
- arxiv url: http://arxiv.org/abs/2411.10273v1
- Date: Fri, 15 Nov 2024 15:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:04.757626
- Title: Fill in the blanks: Rethinking Interpretability in vision
- Title(参考訳): 空白を埋める:視覚における解釈可能性の再考
- Authors: Pathirage N. Deelaka, Tharindu Wickremasinghe, Devin Y. De Silva, Lisara N. Gajaweera,
- Abstract要約: 我々は、新しい視点から視覚モデルの説明可能性を再考し、トレーニング中にモデルが学習した一般的な入力構造を探索する。
標準的なビジョンデータセットと事前トレーニングされたモデルの実験は、一貫性のあるパターンを明らかにし、追加のモデルに依存しない説明可能性ツールとして解釈できる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Model interpretability is a key challenge that has yet to align with the advancements observed in contemporary state-of-the-art deep learning models. In particular, deep learning aided vision tasks require interpretability, in order for their adoption in more specialized domains such as medical imaging. Although the field of explainable AI (XAI) developed methods for interpreting vision models along with early convolutional neural networks, recent XAI research has mainly focused on assigning attributes via saliency maps. As such, these methods are restricted to providing explanations at a sample level, and many explainability methods suffer from low adaptability across a wide range of vision models. In our work, we re-think vision-model explainability from a novel perspective, to probe the general input structure that a model has learnt during its training. To this end, we ask the question: "How would a vision model fill-in a masked-image". Experiments on standard vision datasets and pre-trained models reveal consistent patterns, and could be intergrated as an additional model-agnostic explainability tool in modern machine-learning platforms. The code will be available at \url{https://github.com/BoTZ-TND/FillingTheBlanks.git}
- Abstract(参考訳): モデル解釈可能性(Model Interpretability)は、現代の最先端のディープラーニングモデルで観察される進歩と、いまだに一致していない重要な課題である。
特に、深層学習支援視覚タスクは、医療画像のようなより特殊な領域に採用するために、解釈可能性を必要とする。
説明可能なAI(XAI)の分野は、初期の畳み込みニューラルネットワークとともに視覚モデルを解釈する手法を開発したが、最近のXAI研究は、主に塩分マップによる属性の割り当てに焦点を当てている。
このように、これらの手法はサンプルレベルでの説明に制限されており、多くの説明可能性法は広範囲の視覚モデルにおいて低い適応性に悩まされている。
本研究では,新しい視点から視覚モデルの説明可能性を再考し,モデルがトレーニング中に学習した一般的な入力構造を探索する。
この目的のために、我々は「どのように視覚モデルが仮面画像に埋め込むか」という疑問を投げかける。
標準的なビジョンデータセットと事前トレーニングされたモデルの実験は、一貫性のあるパターンを明らかにし、現代の機械学習プラットフォームで追加のモデルに依存しない説明可能性ツールとして解釈できる。
コードは \url{https://github.com/BoTZ-TND/FillingTheBlanks.git} で入手できる。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Greybox XAI: a Neural-Symbolic learning framework to produce
interpretable predictions for image classification [6.940242990198]
Greybox XAIは、シンボリック知識ベース(KB)を使うことで、DNNと透明モデルを構成するフレームワークである。
我々は、XAIの普遍的基準が欠如している問題に、説明が何であるかを形式化することで対処する。
この新しいアーキテクチャがどのように正確で、いくつかのデータセットで説明可能であるかを示す。
論文 参考訳(メタデータ) (2022-09-26T08:55:31Z) - Perception Visualization: Seeing Through the Eyes of a DNN [5.9557391359320375]
我々は、Grad-CAMのような現在の説明方法と本質的に異なる、新しい説明形式を開発する。
知覚可視化は、DNNが入力画像で知覚するものの視覚的表現を提供する。
ユーザスタディの結果から,認識の可視化が可能になった場合,人間がシステムの判断をよりよく理解し,予測できることが示される。
論文 参考訳(メタデータ) (2022-04-21T07:18:55Z) - Towards Learning a Vocabulary of Visual Concepts and Operators using
Deep Neural Networks [0.0]
我々は、MNIST画像を用いて訓練されたモデルの学習された特徴マップを分析し、より説明可能な予測を行う。
MNIST画像を用いて学習した変分オートエンコーダから視覚概念を生成する。
再建損失(平均2乗誤差)を初期値120から60に減らすことができた。
論文 参考訳(メタデータ) (2021-09-01T16:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。