論文の概要: Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory
- arxiv url: http://arxiv.org/abs/2107.01671v4
- Date: Thu, 7 Dec 2023 23:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 19:45:56.280728
- Title: Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory
- Title(参考訳): 動的作業記憶を用いた認知視覚コモンセンス推論
- Authors: Xuejiao Tang, Xin Huang, Wenbin Zhang, Travers B. Child, Qiong Hu,
Zhen Liu and Ji Zhang
- Abstract要約: Visual Commonsense Reasoning (VCR) は、質問画像入力によって、対応する合理的な答えを予測する。
VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。
本稿では,文間に蓄積したコモンセンスを記憶し,推論のための事前知識を提供する動的ワーキングメモリベース認知型VCRネットワークを提案する。
- 参考スコア(独自算出の注目度): 10.544312410674985
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Visual Commonsense Reasoning (VCR) predicts an answer with corresponding
rationale, given a question-image input. VCR is a recently introduced visual
scene understanding task with a wide range of applications, including visual
question answering, automated vehicle systems, and clinical decision support.
Previous approaches to solving the VCR task generally rely on pre-training or
exploiting memory with long dependency relationship encoded models. However,
these approaches suffer from a lack of generalizability and prior knowledge. In
this paper we propose a dynamic working memory based cognitive VCR network,
which stores accumulated commonsense between sentences to provide prior
knowledge for inference. Extensive experiments show that the proposed model
yields significant improvements over existing methods on the benchmark VCR
dataset. Moreover, the proposed model provides intuitive interpretation into
visual commonsense reasoning. A Python implementation of our mechanism is
publicly available at https://github.com/tanjatang/DMVCR
- Abstract(参考訳): Visual Commonsense Reasoning (VCR) は、質問画像入力によって、対応する合理的な答えを予測する。
vcrは、視覚質問応答、自動車両システム、臨床判断サポートなど、幅広いアプリケーションを備えた、最近導入されたビジュアルシーン理解タスクである。
VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。
しかし、これらのアプローチは一般化可能性と事前知識の欠如に苦しむ。
本稿では,文間の累積コモンセンスを格納し,推論のための事前知識を提供する動的作業記憶型認知vcrネットワークを提案する。
広範な実験により、提案モデルがベンチマークvcrデータセットの既存の方法を大幅に改善できることが示されている。
さらに,提案モデルは視覚的コモンセンス推論の直感的な解釈を提供する。
私たちのメカニズムのPython実装はhttps://github.com/tanjatang/DMVCRで公開されています。
関連論文リスト
- Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering [2.98667511228225]
ReReは、事前訓練されたクリップビジョンエンコーダと事前訓練されたGPT-2言語モデルをデコーダとして使用するエンコーダ/デコーダアーキテクチャモデルである。
ReReは、VQA精度と説明スコアにおいて従来の手法よりも優れており、より説得力があり信頼性の高いNLEの改善を示している。
論文 参考訳(メタデータ) (2024-08-30T04:39:43Z) - Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - A Memory Model for Question Answering from Streaming Data Supported by
Rehearsal and Anticipation of Coreference Information [19.559853775982386]
本稿では,ストリーミングデータから質問応答タスクを解くための重要な情報に入力を処理しながら,リハーサルと予測を行うメモリモデルを提案する。
我々は,bAbIデータセットと大規模テキスト(Narrative QA)およびビデオ(ActivityNet-QA)質問応答データセットを用いて,我々のモデルを検証した。
論文 参考訳(メタデータ) (2023-05-12T15:46:36Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Sparse Visual Counterfactual Explanations in Image Space [50.768119964318494]
画像空間における視覚的対実的説明のための新しいモデルを提案する。
我々は、ImageNetデータセットの急激な特徴により、ImageNet分類器の望ましくない動作を検出するために使用できることを示す。
論文 参考訳(メタデータ) (2022-05-16T20:23:11Z) - Attention Mechanism based Cognition-level Scene Understanding [23.592893555879538]
Visual Commonsense Reasoning (VCR)モデルは、現実の世界からの推論能力を必要とする、対応する理論的根拠による回答を予測することができる。
VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。
本稿では,視覚的テクスト情報を効率的に融合し,セマンティック情報を並列に符号化し,認知レベルの推論のためのリッチな情報を取得するための並列注意型認知VCRネットワークPAVCRを提案する。
論文 参考訳(メタデータ) (2022-04-17T15:04:44Z) - Joint Answering and Explanation for Visual Commonsense Reasoning [46.44588492897933]
Visual Commonsense Reasoningは、よりハイレベルな視覚的理解を追求する試みである。
与えられた画像に対する質問応答と、回答説明のための合理的推論の2つの必須プロセスで構成されている。
本稿では,質問応答と推論プロセスの合理化を両立させるための知識蒸留強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-25T11:26:52Z) - Relation-aware Hierarchical Attention Framework for Video Question
Answering [6.312182279855817]
ビデオ中のオブジェクトの静的な関係と動的関係を学習するために,RHA(Relation-aware Hierarchical Attention)フレームワークを提案する。
特に、ビデオや質問は、まず事前訓練されたモデルによって埋め込まれ、視覚とテキストの特徴を得る。
我々は,時間的,空間的,意味的関係を考察し,階層的注意機構によりマルチモーダルな特徴を融合して回答を予測する。
論文 参考訳(メタデータ) (2021-05-13T09:35:42Z) - Visual Commonsense R-CNN [102.5061122013483]
本稿では,新しい教師なし特徴表現学習手法であるVisual Commonsense Region-based Convolutional Neural Network (VC R-CNN)を提案する。
VC R-CNNは、キャプションやVQAのような高レベルのタスクのための改善された視覚領域エンコーダとして機能する。
我々は、画像キャプション、VQA、VCRの3つの一般的なタスクのモデルにおいて、VC R-CNNの機能を広く適用し、それら全体で一貫したパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2020-02-27T15:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。