論文の概要: A First Look: Towards Explainable TextVQA Models via Visual and Textual
Explanations
- arxiv url: http://arxiv.org/abs/2105.02626v1
- Date: Thu, 29 Apr 2021 00:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 00:00:22.434256
- Title: A First Look: Towards Explainable TextVQA Models via Visual and Textual
Explanations
- Title(参考訳): 視覚的およびテキスト的説明による説明可能なTextVQAモデルに向けた一考察
- Authors: Varun Nagaraj Rao, Xingjian Zhen, Karen Hovsepian, Mingwei Shen
- Abstract要約: MTXNetは、エンドツーエンドのトレーニング可能なマルチモーダルアーキテクチャで、マルチモーダルな説明を生成する。
マルチモーダルな説明によるトレーニングは、CIDErスコアで最大7%、IoUでは2%を超えることが示されています。
また,生成したマルチモーダル説明を利用した実世界の電子商取引アプリケーションについても述べる。
- 参考スコア(独自算出の注目度): 3.7638008383533856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable deep learning models are advantageous in many situations. Prior
work mostly provide unimodal explanations through post-hoc approaches not part
of the original system design. Explanation mechanisms also ignore useful
textual information present in images. In this paper, we propose MTXNet, an
end-to-end trainable multimodal architecture to generate multimodal
explanations, which focuses on the text in the image. We curate a novel dataset
TextVQA-X, containing ground truth visual and multi-reference textual
explanations that can be leveraged during both training and evaluation. We then
quantitatively show that training with multimodal explanations complements
model performance and surpasses unimodal baselines by up to 7% in CIDEr scores
and 2% in IoU. More importantly, we demonstrate that the multimodal
explanations are consistent with human interpretations, help justify the
models' decision, and provide useful insights to help diagnose an incorrect
prediction. Finally, we describe a real-world e-commerce application for using
the generated multimodal explanations.
- Abstract(参考訳): 説明可能なディープラーニングモデルは、多くの状況において有利である。
以前の作業は、元々のシステム設計の一部ではないポストホックなアプローチを通じて、主にユニモーダルな説明を提供する。
説明機構はまた、画像に存在する有用なテキスト情報も無視する。
本稿では,画像中のテキストに焦点をあてたマルチモーダル記述を生成する,エンドツーエンドのトレーニング可能なマルチモーダルアーキテクチャMTXNetを提案する。
我々は、トレーニングと評価の両方で活用できる、真実と多参照のテキスト説明を含む新しいデータセットTextVQA-Xをキュレートする。
次に,マルチモーダルな説明を用いたトレーニングがモデル性能を補完し,CIDErスコアの最大7%,IoUスコアの最大2%を超越することを示す。
さらに重要なことは、マルチモーダルな説明が人間の解釈と一致していることを示し、モデルの判断を正当化し、誤った予測を診断するのに有用な洞察を提供する。
最後に、生成されたマルチモーダル説明を利用する実世界のeコマースアプリケーションについて述べる。
関連論文リスト
- MEGL: Multimodal Explanation-Guided Learning [23.54169888224728]
本稿では,モデル解釈性の向上と分類性能の向上を目的とした,新しいマルチモーダル説明誘導学習(MEGL)フレームワークを提案する。
我々のSDTG(Saliency-Driven Textual Grounding)アプローチは、視覚的説明からテキスト論理へ空間情報を統合し、空間的根拠と文脈的リッチな説明を提供する。
我々は、マルチモーダルな説明を伴う画像分類のための2つの新しいデータセットであるObject-MEとAction-MEでMEGLを検証した。
論文 参考訳(メタデータ) (2024-11-20T05:57:00Z) - A Concept-Based Explainability Framework for Large Multimodal Models [52.37626977572413]
本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。
これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。
抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。
論文 参考訳(メタデータ) (2024-06-12T10:48:53Z) - Diffexplainer: Towards Cross-modal Global Explanations with Diffusion Models [51.21351775178525]
DiffExplainerは、言語ビジョンモデルを活用することで、マルチモーダルなグローバルな説明可能性を実現する新しいフレームワークである。
最適化されたテキストプロンプトに条件付けされた拡散モデルを使用し、クラス出力を最大化する画像を合成する。
生成した視覚的記述の分析により、バイアスと突発的特徴の自動識別が可能になる。
論文 参考訳(メタデータ) (2024-04-03T10:11:22Z) - Language as the Medium: Multimodal Video Classification through text
only [3.744589644319257]
マルチモーダル映像情報をキャプチャする詳細なテキスト記述を生成するためのモデルに依存しない新しい手法を提案する。
本手法は, GPT-3.5 や Llama2 といった大規模言語モデルによって学習された広範な知識を活用する。
UCF-101 や Kinetics などの一般的な行動認識ベンチマークによる評価は,これらの文脈に富んだ記述をビデオ理解タスクでうまく利用できることを示す。
論文 参考訳(メタデータ) (2023-09-19T17:32:21Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - REX: Reasoning-aware and Grounded Explanation [30.392986232906107]
我々は,画像中の推論プロセスとグラウンド化キーワードをトラバースすることで,意思決定を説明する,新しいタイプのマルチモーダルな説明を開発する。
第2に、意思決定を説明するために、視覚的およびテキスト的モダリティに重要なコンポーネントを密に結合する必要があることを特定する。
第3に、単語と興味のある領域のペアワイズ対応を明示的にモデル化する、新しい説明生成手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T17:28:42Z) - Explanation as a process: user-centric construction of multi-level and
multi-modal explanations [0.34410212782758043]
本稿では,マルチレベルとマルチモーダルな説明を組み合わせたプロセスベースアプローチを提案する。
私たちは、解釈可能な機械学習アプローチであるインダクティブロジックプログラミングを使用して、理解可能なモデルを学びます。
論文 参考訳(メタデータ) (2021-10-07T19:26:21Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。