論文の概要: Improving Cross-Modal Understanding in Visual Dialog via Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2204.07302v1
- Date: Fri, 15 Apr 2022 02:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 22:38:06.253438
- Title: Improving Cross-Modal Understanding in Visual Dialog via Contrastive
Learning
- Title(参考訳): コントラスト学習による視覚対話におけるクロスモーダル理解の改善
- Authors: Feilong Chen, Xiuyi Chen, Shuang Xu, Bo Xu
- Abstract要約: 視覚言語事前学習モデルVD-BERTに基づいて,視覚対話におけるモーダル間理解の分析を行った。
そこで本研究では,ICMUと呼ばれる視覚対話のモーダル理解を改善するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 24.673262969986993
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual Dialog is a challenging vision-language task since the visual dialog
agent needs to answer a series of questions after reasoning over both the image
content and dialog history. Though existing methods try to deal with the
cross-modal understanding in visual dialog, they are still not enough in
ranking candidate answers based on their understanding of visual and textual
contexts. In this paper, we analyze the cross-modal understanding in visual
dialog based on the vision-language pre-training model VD-BERT and propose a
novel approach to improve the cross-modal understanding for visual dialog,
named ICMU. ICMU enhances cross-modal understanding by distinguishing different
pulled inputs (i.e. pulled images, questions or answers) based on four-way
contrastive learning. In addition, ICMU exploits the single-turn visual
question answering to enhance the visual dialog model's cross-modal
understanding to handle a multi-turn visually-grounded conversation.
Experiments show that the proposed approach improves the visual dialog model's
cross-modal understanding and brings satisfactory gain to the VisDial dataset.
- Abstract(参考訳): ビジュアルダイアログエージェントは、画像の内容とダイアログ履歴の両方を推論した後、一連の質問に答える必要があるため、視覚言語課題である。
既存の手法は、視覚対話におけるモーダルな理解に対処しようとするが、視覚的・テキスト的文脈の理解に基づく候補回答のランク付けには不十分である。
本稿では,視覚言語事前学習モデルvd-bertに基づく視覚ダイアログのクロスモーダル理解を分析し,icmuと呼ばれる視覚ダイアログのクロスモーダル理解を改善するための新しいアプローチを提案する。
icmuは、4方向のコントラスト学習に基づいて異なる引き抜いた入力(イメージ、質問、回答)を区別することで、クロスモーダル理解を強化する。
さらに、ICMUは、視覚対話モデルのクロスモーダル理解を強化するために、シングルターン視覚質問応答を利用して、マルチターン視覚的な会話を処理する。
実験の結果,提案手法は視覚対話モデルのクロスモーダル理解を改善し,VisDialデータセットに十分なゲインをもたらすことが示された。
関連論文リスト
- Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution [79.05412803762528]
ビジュアルダイアログタスクでは、視覚環境に基づいたマルチラウンドダイアログにおいて、AIエージェントが人間と対話する必要がある。
本稿では,Pronoun Coreference Resolution を用いたビジュアルダイアログ理解のための新しいフレームワーク VD-PCR を提案する。
提案した暗黙的および明示的手法により、VD-PCRはVisDialデータセット上で最先端の実験結果を得る。
論文 参考訳(メタデータ) (2022-05-29T15:29:50Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Modeling Explicit Concerning States for Reinforcement Learning in Visual
Dialogue [43.42833961578857]
本稿では,各ラウンドにおける視覚内容と視覚対話を通しての関心事を表すために,ECS(Explicit Concerning States)を提案する。
ECSはマルチモーダル情報からモデル化され、明示的に表現される。
ECSに基づいて2つの直感的かつ解釈可能な報酬を定式化し、視覚対話エージェントが多様かつ情報的な視覚情報について会話することを奨励する。
論文 参考訳(メタデータ) (2021-07-12T08:15:35Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。
異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。
MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。