論文の概要: Explainable Image Captioning using CNN- CNN architecture and Hierarchical Attention
- arxiv url: http://arxiv.org/abs/2407.09556v1
- Date: Fri, 28 Jun 2024 16:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:08:55.948691
- Title: Explainable Image Captioning using CNN- CNN architecture and Hierarchical Attention
- Title(参考訳): CNN-CNNアーキテクチャと階層的注意を用いた説明可能な画像キャプション
- Authors: Rishi Kesav Mohan, Sanjay Sureshkumar, Vignesh Sivasubramaniam,
- Abstract要約: 説明可能なAIは、モデルやアルゴリズムの予測が説明可能で正当化可能な方法で、従来の手法にアプローチするアプローチである。
CNNデコーダと階層型アテンションの概念を取り入れた新しいアーキテクチャが,キャプション生成の高速化と精度向上に利用されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning is a technology that produces text-based descriptions for an image. Deep learning-based solutions built on top of feature recognition may very well serve the purpose. But as with any other machine learning solution, the user understanding in the process of caption generation is poor and the model does not provide any explanation for its predictions and hence the conventional methods are also referred to as Black-Box methods. Thus, an approach where the model's predictions are trusted by the user is needed to appreciate interoperability. Explainable AI is an approach where a conventional method is approached in a way that the model or the algorithm's predictions can be explainable and justifiable. Thus, this article tries to approach image captioning using Explainable AI such that the resulting captions generated by the model can be Explained and visualized. A newer architecture with a CNN decoder and hierarchical attention concept has been used to increase speed and accuracy of caption generation. Also, incorporating explainability to a model makes it more trustable when used in an application. The model is trained and evaluated using MSCOCO dataset and both quantitative and qualitative results are presented in this article.
- Abstract(参考訳): 画像キャプションは、画像のテキストベースの記述を生成する技術である。
機能認識の上に構築されたディープラーニングベースのソリューションは、その目的を達成するのに非常に役立ちます。
しかし、他の機械学習ソリューションと同様に、キャプション生成のプロセスにおけるユーザ理解は貧弱であり、そのモデルには予測に関する説明がないため、従来の手法はBlack-Boxメソッドとも呼ばれる。
したがって、モデルの予測がユーザによって信頼されるアプローチは、相互運用性を高く評価するために必要である。
説明可能なAIは、モデルやアルゴリズムの予測が説明可能で正当化可能な方法で、従来の方法にアプローチするアプローチである。
そこで本論文では,モデルが生成したキャプションを説明・可視化できるように,説明可能なAIを用いた画像キャプションのアプローチを試みる。
CNNデコーダと階層型アテンションの概念を取り入れた新しいアーキテクチャが,キャプション生成の高速化と精度向上に利用されている。
また、モデルに説明可能性を導入することで、アプリケーションで使用する場合の信頼性も向上します。
本論文では,MSCOCOデータセットを用いてモデルのトレーニングと評価を行い,定量的および定性的な結果について述べる。
関連論文リスト
- Explainable Concept Generation through Vision-Language Preference Learning [7.736445799116692]
概念に基づく説明は、ポストホック後のディープニューラルネットワークを説明するための一般的な選択肢となっている。
視覚言語生成モデルを微調整する強化学習に基づく選好最適化アルゴリズムを考案する。
提案手法の有効性と信頼性に加えて,ニューラルネットワーク解析の診断ツールとしての有用性を示す。
論文 参考訳(メタデータ) (2024-08-24T02:26:42Z) - VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models [0.0]
VALE Visual and Language Explanation という新しいフレームワークを提案する。
VALEは説明可能なAI技術と高度な言語モデルを統合し、包括的な説明を提供する。
本稿では,画像分類タスクのためのVALEフレームワークの試験的検討を行う。
論文 参考訳(メタデータ) (2024-08-23T03:02:11Z) - TextCAVs: Debugging vision models using text [37.4673705484723]
概念のテキスト記述を用いた概念アクティベーションベクトル(CAV)を作成する新しい手法であるTextCAVを紹介する。
初期の実験では、TextCAVsが胸部X線データセット(MIMIC-CXR)と自然画像(ImageNet)について合理的に説明できることを示した。
論文 参考訳(メタデータ) (2024-08-16T10:36:08Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Greybox XAI: a Neural-Symbolic learning framework to produce
interpretable predictions for image classification [6.940242990198]
Greybox XAIは、シンボリック知識ベース(KB)を使うことで、DNNと透明モデルを構成するフレームワークである。
我々は、XAIの普遍的基準が欠如している問題に、説明が何であるかを形式化することで対処する。
この新しいアーキテクチャがどのように正確で、いくつかのデータセットで説明可能であるかを示す。
論文 参考訳(メタデータ) (2022-09-26T08:55:31Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - LIMEADE: From AI Explanations to Advice Taking [34.581205516506614]
ポジティブなアドバイスとネガティブなアドバイスの両方を、任意の基盤となる不透明なモデルに変換する最初のフレームワークであるLIMEADEを紹介します。
画像分類領域の厳密なベースラインに比べて精度が向上することを示す。
テキストのモダリティについては、公開ウェブサイト上の科学論文のニューラルレコメンデータシステムに適用する。
論文 参考訳(メタデータ) (2020-03-09T18:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。