Fugu-MT 論文翻訳(概要): DiG-IN: Diffusion Guidance for Investigating Networks -- Uncovering Classifier Differences Neuron Visualisations and Visual Counterfactual Explanations

論文の概要: DiG-IN: Diffusion Guidance for Investigating Networks -- Uncovering Classifier Differences Neuron Visualisations and Visual Counterfactual Explanations

arxiv url: http://arxiv.org/abs/2311.17833v3
Date: Fri, 12 Jul 2024 06:53:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 05:37:11.008745
Title: DiG-IN: Diffusion Guidance for Investigating Networks -- Uncovering Classifier Differences Neuron Visualisations and Visual Counterfactual Explanations
Title（参考訳）: DiG-IN: Dig-IN: Diffusion Guidance for Investigationing Networks -- Uncovering Classifier differences Neuron Visualisations and Visual Counterfactual Explanations
Authors: Maximilian Augustin, Yannic Neuhaus, Matthias Hein,
Abstract要約: ディープラーニングは、ImageNetのような複雑な画像分類タスク、予期せぬ障害モード、例えばスプリアス機能などに大きな進歩をもたらした。安全クリティカルなタスクでは、その決定のブラックボックスの性質は問題であり、説明や少なくとも意思決定を行う方法が緊急に必要である。本稿では,これらの問題に対して,ガイド画像生成のためのフレームワークを用いて分類器由来の目的を最適化した画像を生成する。
参考スコア（独自算出の注目度）: 35.458709912618176
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While deep learning has led to huge progress in complex image classification tasks like ImageNet, unexpected failure modes, e.g. via spurious features, call into question how reliably these classifiers work in the wild. Furthermore, for safety-critical tasks the black-box nature of their decisions is problematic, and explanations or at least methods which make decisions plausible are needed urgently. In this paper, we address these problems by generating images that optimize a classifier-derived objective using a framework for guided image generation. We analyze the decisions of image classifiers by visual counterfactual explanations (VCEs), detection of systematic mistakes by analyzing images where classifiers maximally disagree, and visualization of neurons and spurious features. In this way, we validate existing observations, e.g. the shape bias of adversarially robust models, as well as novel failure modes, e.g. systematic errors of zero-shot CLIP classifiers. Moreover, our VCEs outperform previous work while being more versatile.
Abstract（参考訳）: ディープラーニングは、ImageNetのような複雑な画像分類タスクに大きな進歩をもたらしたが、予期せぬ失敗モード、例えば突発的な機能によって、これらの分類器が野生でいかに確実に機能するかを疑問視する。さらに、安全クリティカルなタスクには、その決定のブラックボックスの性質に問題がある。本稿では、ガイド画像生成のためのフレームワークを用いて、分類器由来の目的を最適化した画像を生成することにより、これらの問題に対処する。視覚的対実的説明(VCE)による画像分類器の決定、分類器が最大に一致しない画像の解析による系統的誤りの検出、ニューロンの可視化と刺激的特徴の可視化を行う。このようにして、敵の頑健なモデルの形状バイアスや新しい故障モード、例えばゼロショットCLIP分類器の系統的エラーなど、既存の観測結果を検証する。さらに、VCEはより汎用性が高く、以前の作業よりも優れています。

関連論文リスト

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing [56.60465182650588]
我々は,3段階の相互作用階層を導入し,決定的接地,形態的操作,因果推論を捉える。本稿では,スケーラブルできめ細かい評価を実現するために,タスク固有のメトリクスを備えた堅牢なLMM-as-a-judge評価フレームワークを提案する。プロプライエタリなモデルは早期の視覚指示追従能力を示し、一貫してオープンソースモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2026-02-02T09:24:45Z)
More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。 LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文参考訳（メタデータ） (2026-01-12T18:45:13Z)
ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文参考訳（メタデータ） (2025-09-24T07:34:09Z)
From Visual Explanations to Counterfactual Explanations with Latent Diffusion [11.433402357922414]
本稿では,近年の顕著な研究における2つの課題に対処するための新しいアプローチを提案する。まず、ターゲットクラスの"概念"と元のクラスを区別するために、どの特定の反事実的特徴が重要かを決定する。第二に、非ロバスト分類器に対して、対向的に堅牢なモデルのサポートに頼ることなく、重要な説明を提供する。
論文参考訳（メタデータ） (2025-04-12T13:04:00Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文参考訳（メタデータ） (2023-09-01T11:15:50Z)
Diffusion Visual Counterfactual Explanations [51.077318228247925]
VCE(Visual Counterfactual Explanations)は、画像の決定を理解するための重要なツールである。 VCEの生成に対する現在のアプローチは、逆向きに堅牢なモデルに制限されており、しばしば非現実的なアーティファクトを含んでいる。本稿では、任意のイメージネット分類器に対して、視覚拡散対実説明(DVCE)を生成することでこれを克服する。
論文参考訳（メタデータ） (2022-10-21T09:35:47Z)
ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial Viewpoints [42.64942578228025]
本研究では,視覚認識モデルにミスリードする敵対的視点を見つけるために,ViewFoolという新しい手法を提案する。現実世界の物体をニューラル放射場(NeRF)として符号化することにより、ViewFoolは多様な敵の視点の分布を特徴付ける。
論文参考訳（メタデータ） (2022-10-08T03:06:49Z)
Robustness and invariance properties of image classifiers [8.970032486260695]
ディープニューラルネットワークは多くの画像分類タスクで印象的な結果を得た。ディープネットワークは、多種多様なセマンティック保存画像修正に対して堅牢ではない。画像分類器の小さなデータ分散シフトに対する堅牢性の低さは、その信頼性に関する深刻な懸念を引き起こす。
論文参考訳（メタデータ） (2022-08-30T11:00:59Z)
Toward an ImageNet Library of Functions for Global Optimization Benchmarking [0.0]
本研究では,認識問題を画像認識問題に変換することを提案する。教師付きマルチクラス画像認識問題として対処し、基本的ニューラルネットワークモデルを適用して解決する。この明らかに成功した学習は、自動特徴抽出とBBO問題の局所構造推論への別のステップである。
論文参考訳（メタデータ） (2022-06-27T21:05:00Z)
Sparse Visual Counterfactual Explanations in Image Space [50.768119964318494]
画像空間における視覚的対実的説明のための新しいモデルを提案する。我々は、ImageNetデータセットの急激な特徴により、ImageNet分類器の望ましくない動作を検出するために使用できることを示す。
論文参考訳（メタデータ） (2022-05-16T20:23:11Z)
Two-stage Visual Cues Enhancement Network for Referring Image Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文参考訳（メタデータ） (2021-10-09T02:53:39Z)
Understanding invariance via feedforward inversion of discriminatively trained classifiers [30.23199531528357]
過去の研究では、出力ログに余計な視覚的詳細が残っていることが判明した。極めて高い忠実度を再現するフィードフォワードインバージョンモデルを開発する。私たちのアプローチはBigGANをベースにしており、1ホットクラスのラベルの代わりにロジットのコンディショニングを行います。
論文参考訳（メタデータ） (2021-03-15T17:56:06Z)
Towards Unsupervised Deep Image Enhancement with Generative Adversarial Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T03:22:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。