論文の概要: Reasoning Over History: Context Aware Visual Dialog
- arxiv url: http://arxiv.org/abs/2011.00669v1
- Date: Mon, 2 Nov 2020 01:25:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:49:03.487102
- Title: Reasoning Over History: Context Aware Visual Dialog
- Title(参考訳): 歴史に関する推論:コンテキスト対応のビジュアルダイアログ
- Authors: Muhammad A. Shah, Shikib Mehri, Tejas Srinivasan
- Abstract要約: 既存の強力なニューラルVQAモデルを拡張し、以前のダイアログのターンからの情報を保持できるようにします。
1つの強力なVQAモデルはMACネットワークであり、タスクを一連の注意に基づく推論ステップに分解する。
我々はMACネットワークアーキテクチャをコンテキスト認識型注意・記憶(CAM)で拡張し、過去のダイアログにおける制御状態に付随して、現在の質問に必要な推論操作を決定する。
- 参考スコア(独自算出の注目度): 12.117737635879038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While neural models have been shown to exhibit strong performance on
single-turn visual question answering (VQA) tasks, extending VQA to a
multi-turn, conversational setting remains a challenge. One way to address this
challenge is to augment existing strong neural VQA models with the mechanisms
that allow them to retain information from previous dialog turns. One strong
VQA model is the MAC network, which decomposes a task into a series of
attention-based reasoning steps. However, since the MAC network is designed for
single-turn question answering, it is not capable of referring to past dialog
turns. More specifically, it struggles with tasks that require reasoning over
the dialog history, particularly coreference resolution. We extend the MAC
network architecture with Context-aware Attention and Memory (CAM), which
attends over control states in past dialog turns to determine the necessary
reasoning operations for the current question. MAC nets with CAM achieve up to
98.25% accuracy on the CLEVR-Dialog dataset, beating the existing
state-of-the-art by 30% (absolute). Our error analysis indicates that with CAM,
the model's performance particularly improved on questions that required
coreference resolution.
- Abstract(参考訳): ニューラルモデルはシングルターン視覚的質問応答(VQA)タスクに強いパフォーマンスを示すことが示されているが、VQAをマルチターンに拡張することは依然として課題である。
この課題に対処する1つの方法は、既存の強力なニューラルネットワークVQAモデルを、以前のダイアログのターンからの情報を保持するメカニズムで強化することである。
1つの強力なVQAモデルはMACネットワークであり、タスクを一連の注意に基づく推論ステップに分解する。
しかし、MACネットワークは単ターン質問応答用に設計されているため、過去のダイアログのターンを参照することはできない。
具体的には、ダイアログ履歴、特にコリファレンスレゾリューションの推論を必要とするタスクに苦労している。
我々は,macのネットワークアーキテクチャを,過去のダイアログの制御状態に応答し,現在の質問に対して必要な推論操作を決定するコンテキスト認識注意メモリ(cam)で拡張する。
CAMを持つMACネットは、CLEVR-Dialogデータセットで最大98.25%の精度を実現し、既存の最先端を30%上回っている(絶対)。
誤差分析の結果,camでは,コリファレンスの解決を必要とする質問に対して,特にモデルの性能が向上したことが示された。
関連論文リスト
- UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for
Vision-Language Models [66.37493420911979]
視覚言語モデル(LVLM)に入力がどのように提示されるかは、ゼロショットモデルの性能に大きな影響を与える可能性がある。
本稿では,LVLMをキャプタと推論器として用い,画像の健全な詳細を抽出するフレームワークであるRephrase, Augment and Reason(RepARe)を紹介する。
VQAv2ではRepAReが3.85%(絶対)増加し,A-OKVQAでは6.41%向上することを示した。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Interpretable by Design Visual Question Answering [64.66788198885182]
解釈可能なVQAモデルは、画像のどの部分から得られる結論を判断できるべきだ、と我々は主張する。
ここでは、VQA問題に対する明示的な中間的動的推論構造を設計する。
InterVQAは、最先端(ソータ)のエンドタスクのパフォーマンスと同様に、高品質な明示的な中間推論ステップを生成する。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Modeling What-to-ask and How-to-ask for Answer-unaware Conversational
Question Generation [30.086071993793823]
What-to-askとHow-to-askは、回答を意識しない2つの主要な課題である。
本稿では,2段階CQGフレームワークであるSG-CQGを紹介する。
論文 参考訳(メタデータ) (2023-05-04T18:06:48Z) - A Hierarchical Reasoning Graph Neural Network for The Automatic Scoring
of Answer Transcriptions in Video Job Interviews [14.091472037847499]
質問応答対の自動評価のための階層型推論グラフニューラルネットワーク(HRGNN)を提案する。
我々は,現在QAセッションの相互作用状態をモデル化するために,意味レベル推論グラフアテンションネットワークを利用する。
最後に,最終予測のための時間的質問応答対を表すゲート再帰単位エンコーダを提案する。
論文 参考訳(メタデータ) (2020-12-22T12:27:45Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Multimodal Dialogue State Tracking By QA Approach with Data Augmentation [16.436557991074068]
本稿では,オープンドメイン質問応答(QA)の観点から,AVSD(Audio-Video Scene-Aware Dialogue)タスクを解釈する。
提案するQAシステムは,マルチモーダル融合とアテンションを備えた共通エンコーダデコーダフレームワークを用いる。
実験の結果,DSTC7-AVSDデータセットのベースラインモデルに対して,我々のモデルと手法が大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2020-07-20T06:23:18Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。