論文の概要: Interpretable Visual Understanding with Cognitive Attention Network
- arxiv url: http://arxiv.org/abs/2108.02924v3
- Date: Thu, 7 Dec 2023 23:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 19:46:09.131132
- Title: Interpretable Visual Understanding with Cognitive Attention Network
- Title(参考訳): 認知的注意ネットワークを用いた解釈可能な視覚理解
- Authors: Xuejiao Tang, Wenbin Zhang, Yi Yu, Kea Turner, Tyler Derr, Mengyu Wang
and Eirini Ntoutsi
- Abstract要約: 視覚的コモンセンス推論のための認知意識ネットワーク(CAN)を提案する。
まず、画像とテキストの情報をまとめて融合するための画像テキスト融合モジュールを導入する。
第二に、新しい推論モジュールは、画像、クエリ、レスポンスのコモンセンスをエンコードするように設計されている。
- 参考スコア(独自算出の注目度): 20.991018495051623
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: While image understanding on recognition-level has achieved remarkable
advancements, reliable visual scene understanding requires comprehensive image
understanding on recognition-level but also cognition-level, which calls for
exploiting the multi-source information as well as learning different levels of
understanding and extensive commonsense knowledge. In this paper, we propose a
novel Cognitive Attention Network (CAN) for visual commonsense reasoning to
achieve interpretable visual understanding. Specifically, we first introduce an
image-text fusion module to fuse information from images and text collectively.
Second, a novel inference module is designed to encode commonsense among image,
query and response. Extensive experiments on large-scale Visual Commonsense
Reasoning (VCR) benchmark dataset demonstrate the effectiveness of our
approach. The implementation is publicly available at
https://github.com/tanjatang/CAN
- Abstract(参考訳): 認識レベルの画像理解は飛躍的な進歩を遂げているが、信頼性の高い視覚シーン理解には認識レベルでの総合的な画像理解が必要であるだけでなく、多元情報の活用を求める認知レベルも必要となる。
本稿では,視覚コモンセンス推論のための新しい認知的注意ネットワーク(can)を提案する。
具体的には,まず画像とテキストから情報を融合するイメージテキスト融合モジュールを導入する。
第二に、画像、クエリ、レスポンスのコモンセンスを符号化する新しい推論モジュールが設計されている。
大規模visual commonsense reasoning(vcr)ベンチマークデータセットに関する広範な実験により,本手法の有効性が示された。
実装はhttps://github.com/tanjatang/CANで公開されている。
関連論文リスト
- OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Multi-modal Visual Understanding with Prompts for Semantic Information
Disentanglement of Image [0.0]
プロンプト付き画像のマルチモーダル視覚的理解は、画像の意味的理解を強化するために様々な視覚的およびテキスト的手がかりを使用する。
プロンプトベースの手法を利用することで、下流タスクに有用な情報を抽出するために、モデルが画像の特定の特徴にフォーカスすることを学ぶことができる。
論文 参考訳(メタデータ) (2023-05-16T10:15:44Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels [90.88501867321573]
我々は、専門家のアノテーションを使わずに、きめ細かい画像認識という新しい問題を考える。
非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-05T17:58:37Z) - KVL-BERT: Knowledge Enhanced Visual-and-Linguistic BERT for Visual
Commonsense Reasoning [4.787501955202053]
visual commonsense reasoning (vcr)タスクでは、マシンは正しく答え、その答えを正当化するための根拠を提供する必要がある。
本稿では,KVL-BERT(KVL-BERT)モデルを提案する。
視覚的および言語的内容の入力に加えて、ConceptNetから抽出された外部コモンセンス知識を多層トランスフォーマーに統合する。
論文 参考訳(メタデータ) (2020-12-13T08:22:33Z) - Consensus-Aware Visual-Semantic Embedding for Image-Text Matching [69.34076386926984]
画像テキストマッチングは、視覚と言語をブリッジする上で中心的な役割を果たす。
既存のアプローチのほとんどは、表現を学ぶためにイメージテキストインスタンスペアのみに依存しています。
コンセンサスを意識したビジュアル・セマンティック・エンベディングモデルを提案し,コンセンサス情報を組み込む。
論文 参考訳(メタデータ) (2020-07-17T10:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。