論文の概要: Towards Self-Explainability of Deep Neural Networks with Heatmap
Captioning and Large-Language Models
- arxiv url: http://arxiv.org/abs/2304.02202v1
- Date: Wed, 5 Apr 2023 03:29:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:38:05.536142
- Title: Towards Self-Explainability of Deep Neural Networks with Heatmap
Captioning and Large-Language Models
- Title(参考訳): ヒートマップキャプションと大言語モデルを用いた深層ニューラルネットワークの自己説明可能性について
- Authors: Osman Tursun, Simon Denman, Sridha Sridharan, and Clinton Fookes
- Abstract要約: 本稿では,(1)コンテキストモデリングと(2)推論の2つのモジュールを含むフレームワークを提案する。
テンプレートベースのヒートマップキャプションアプローチのコードが公開される予定だ。
- 参考スコア(独自算出の注目度): 38.61856988422258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heatmaps are widely used to interpret deep neural networks, particularly for
computer vision tasks, and the heatmap-based explainable AI (XAI) techniques
are a well-researched topic. However, most studies concentrate on enhancing the
quality of the generated heatmap or discovering alternate heatmap generation
techniques, and little effort has been devoted to making heatmap-based XAI
automatic, interactive, scalable, and accessible. To address this gap, we
propose a framework that includes two modules: (1) context modelling and (2)
reasoning. We proposed a template-based image captioning approach for context
modelling to create text-based contextual information from the heatmap and
input data. The reasoning module leverages a large language model to provide
explanations in combination with specialised knowledge. Our qualitative
experiments demonstrate the effectiveness of our framework and heatmap
captioning approach. The code for the proposed template-based heatmap
captioning approach will be publicly available.
- Abstract(参考訳): 熱マップはディープニューラルネットワーク、特にコンピュータビジョンタスクの解釈に広く使われており、熱マップに基づく説明可能なAI(XAI)技術はよく研究されているトピックである。
しかし、ほとんどの研究は生成したヒートマップの品質向上や代替ヒートマップ生成技術の発見に重点を置いており、ヒートマップベースのxaiを自動化し、インタラクティブで、スケーラブルで、アクセスしやすいものにする努力はほとんどなされていない。
このギャップに対処するために,(1)コンテキストモデリングと(2)推論という2つのモジュールを含むフレームワークを提案する。
本研究では,コンテキストモデリングのためのテンプレートベースの画像キャプション手法を提案し,ヒートマップと入力データからテキストベースのコンテキスト情報を生成する。
推論モジュールは大きな言語モデルを利用して、専門知識と組み合わせて説明を提供する。
定性的実験は,本フレームワークとヒートマップキャプション手法の有効性を示す。
テンプレートベースのヒートマップキャプションアプローチのコードが公開される予定だ。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - LICO: Explainable Models with Language-Image Consistency [39.869639626266554]
本稿では,Language-Image Consistency model for explainable image classification, licOについて述べる。
まず、画像特徴量と言語特徴量との距離を最小化して、粗大な大域的多様体構造アライメントを確立する。
次に,局所特徴写像をクラス固有のプロンプトに割り当てるために最適な輸送(OT)理論を適用することにより,細粒度なサリエンシマップを実現する。
論文 参考訳(メタデータ) (2023-10-15T12:44:33Z) - Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - Multi-modal reward for visual relationships-based image captioning [4.354364351426983]
本稿では、画像のシーングラフから抽出した視覚的関係情報を画像の空間的特徴マップに融合させることにより、画像キャプションのためのディープニューラルネットワークアーキテクチャを提案する。
次に、共通埋め込み空間における言語と視覚の類似性の組み合わせを用いて、提案するネットワークの深層強化学習のためにマルチモーダル報酬関数を導入する。
論文 参考訳(メタデータ) (2023-03-19T20:52:44Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。