論文の概要: Reasoning Over History: Context Aware Visual Dialog
- arxiv url: http://arxiv.org/abs/2011.00669v1
- Date: Mon, 2 Nov 2020 01:25:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:49:03.487102
- Title: Reasoning Over History: Context Aware Visual Dialog
- Title(参考訳): 歴史に関する推論:コンテキスト対応のビジュアルダイアログ
- Authors: Muhammad A. Shah, Shikib Mehri, Tejas Srinivasan
- Abstract要約: 既存の強力なニューラルVQAモデルを拡張し、以前のダイアログのターンからの情報を保持できるようにします。
1つの強力なVQAモデルはMACネットワークであり、タスクを一連の注意に基づく推論ステップに分解する。
我々はMACネットワークアーキテクチャをコンテキスト認識型注意・記憶(CAM)で拡張し、過去のダイアログにおける制御状態に付随して、現在の質問に必要な推論操作を決定する。
- 参考スコア(独自算出の注目度): 12.117737635879038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While neural models have been shown to exhibit strong performance on
single-turn visual question answering (VQA) tasks, extending VQA to a
multi-turn, conversational setting remains a challenge. One way to address this
challenge is to augment existing strong neural VQA models with the mechanisms
that allow them to retain information from previous dialog turns. One strong
VQA model is the MAC network, which decomposes a task into a series of
attention-based reasoning steps. However, since the MAC network is designed for
single-turn question answering, it is not capable of referring to past dialog
turns. More specifically, it struggles with tasks that require reasoning over
the dialog history, particularly coreference resolution. We extend the MAC
network architecture with Context-aware Attention and Memory (CAM), which
attends over control states in past dialog turns to determine the necessary
reasoning operations for the current question. MAC nets with CAM achieve up to
98.25% accuracy on the CLEVR-Dialog dataset, beating the existing
state-of-the-art by 30% (absolute). Our error analysis indicates that with CAM,
the model's performance particularly improved on questions that required
coreference resolution.
- Abstract(参考訳): ニューラルモデルはシングルターン視覚的質問応答(VQA)タスクに強いパフォーマンスを示すことが示されているが、VQAをマルチターンに拡張することは依然として課題である。
この課題に対処する1つの方法は、既存の強力なニューラルネットワークVQAモデルを、以前のダイアログのターンからの情報を保持するメカニズムで強化することである。
1つの強力なVQAモデルはMACネットワークであり、タスクを一連の注意に基づく推論ステップに分解する。
しかし、MACネットワークは単ターン質問応答用に設計されているため、過去のダイアログのターンを参照することはできない。
具体的には、ダイアログ履歴、特にコリファレンスレゾリューションの推論を必要とするタスクに苦労している。
我々は,macのネットワークアーキテクチャを,過去のダイアログの制御状態に応答し,現在の質問に対して必要な推論操作を決定するコンテキスト認識注意メモリ(cam)で拡張する。
CAMを持つMACネットは、CLEVR-Dialogデータセットで最大98.25%の精度を実現し、既存の最先端を30%上回っている(絶対)。
誤差分析の結果,camでは,コリファレンスの解決を必要とする質問に対して,特にモデルの性能が向上したことが示された。
関連論文リスト
- Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering [2.98667511228225]
ReReは、事前訓練されたクリップビジョンエンコーダと事前訓練されたGPT-2言語モデルをデコーダとして使用するエンコーダ/デコーダアーキテクチャモデルである。
ReReは、VQA精度と説明スコアにおいて従来の手法よりも優れており、より説得力があり信頼性の高いNLEの改善を示している。
論文 参考訳(メタデータ) (2024-08-30T04:39:43Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Modeling What-to-ask and How-to-ask for Answer-unaware Conversational
Question Generation [30.086071993793823]
What-to-askとHow-to-askは、回答を意識しない2つの主要な課題である。
本稿では,2段階CQGフレームワークであるSG-CQGを紹介する。
論文 参考訳(メタデータ) (2023-05-04T18:06:48Z) - A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring
of Answer Transcriptions in Video Job Interviews [14.091472037847499]
質問応答対の自動評価のための階層型推論グラフニューラルネットワーク(HRGNN)を提案する。
我々は,現在QAセッションの相互作用状態をモデル化するために,意味レベル推論グラフアテンションネットワークを利用する。
最後に,最終予測のための時間的質問応答対を表すゲート再帰単位エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-22T12:27:45Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Multimodal Dialogue State Tracking By QA Approach with Data Augmentation [16.436557991074068]
本稿では,オープンドメイン質問応答(QA)の観点から,AVSD(Audio-Video Scene-Aware Dialogue)タスクを解釈する。
提案するQAシステムは,マルチモーダル融合とアテンションを備えた共通エンコーダデコーダフレームワークを用いる。
実験の結果,DSTC7-AVSDデータセットのベースラインモデルに対して,我々のモデルと手法が大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2020-07-20T06:23:18Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。