論文の概要: VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution
- arxiv url: http://arxiv.org/abs/2205.14693v1
- Date: Sun, 29 May 2022 15:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:19:17.880260
- Title: VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution
- Title(参考訳): VD-PCR:代名詞参照分解能によるビジュアルダイアログの改善
- Authors: Xintong Yu, Hongming Zhang, Ruixin Hong, Yangqiu Song, Changshui Zhang
- Abstract要約: ビジュアルダイアログタスクでは、視覚環境に基づいたマルチラウンドダイアログにおいて、AIエージェントが人間と対話する必要がある。
本稿では,Pronoun Coreference Resolution を用いたビジュアルダイアログ理解のための新しいフレームワーク VD-PCR を提案する。
提案した暗黙的および明示的手法により、VD-PCRはVisDialデータセット上で最先端の実験結果を得る。
- 参考スコア(独自算出の注目度): 79.05412803762528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The visual dialog task requires an AI agent to interact with humans in
multi-round dialogs based on a visual environment. As a common linguistic
phenomenon, pronouns are often used in dialogs to improve the communication
efficiency. As a result, resolving pronouns (i.e., grounding pronouns to the
noun phrases they refer to) is an essential step towards understanding dialogs.
In this paper, we propose VD-PCR, a novel framework to improve Visual Dialog
understanding with Pronoun Coreference Resolution in both implicit and explicit
ways. First, to implicitly help models understand pronouns, we design novel
methods to perform the joint training of the pronoun coreference resolution and
visual dialog tasks. Second, after observing that the coreference relationship
of pronouns and their referents indicates the relevance between dialog rounds,
we propose to explicitly prune the irrelevant history rounds in visual dialog
models' input. With pruned input, the models can focus on relevant dialog
history and ignore the distraction in the irrelevant one. With the proposed
implicit and explicit methods, VD-PCR achieves state-of-the-art experimental
results on the VisDial dataset.
- Abstract(参考訳): ビジュアルダイアログタスクは、ビジュアル環境に基づいたマルチラウンドダイアログで人間と対話するaiエージェントを必要とする。
共通の言語現象として、代名詞は通信効率を向上させるためにダイアログでしばしば使用される。
その結果、代名詞(つまり、代名詞を名詞句に接地させる)の解決は、対話を理解するための必須のステップである。
本稿では,暗黙的・明示的両面でのPronoun Coreference Resolutionを用いたビジュアルダイアログ理解向上のための新しいフレームワークであるVD-PCRを提案する。
まず,モデルが代名詞を理解するのを暗黙的に支援するために,代名詞コリファレンス分解能と視覚対話タスクの合同訓練を行うための新しい手法を設計する。
第2に,代名詞とその参照詞のコア参照関係がダイアログラウンドの関連性を示すことを確認した後,視覚的ダイアログモデルの入力において,無関係な履歴ラウンドを明示することを提案する。
pruned inputを使えば、モデルは関連するダイアログ履歴に集中でき、無関係なダイアログの邪魔を無視できる。
提案した暗黙的および明示的手法により、VD-PCRはVisDialデータセット上で最先端の実験結果を得る。
関連論文リスト
- Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Improving Cross-Modal Understanding in Visual Dialog via Contrastive
Learning [24.673262969986993]
視覚言語事前学習モデルVD-BERTに基づいて,視覚対話におけるモーダル間理解の分析を行った。
そこで本研究では,ICMUと呼ばれる視覚対話のモーダル理解を改善するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-15T02:36:52Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Exophoric Pronoun Resolution in Dialogues with Topic Regularization [84.23706744602217]
代名詞を参照語に分解することは、長い間、基礎的な自然言語理解問題として研究されてきた。
代名詞仲裁解決法(PCR)に関するこれまでの研究は、概ね、エクソフォリックなシナリオを無視しながら、テキストで言及する代名詞を解消することに焦点を当てていた。
本稿では,会話の局所的文脈とグローバルな話題を協調的に活用して,アウト・オブ・テクスチャPCRの問題を解決することを提案する。
論文 参考訳(メタデータ) (2021-09-10T11:08:31Z) - Graph Based Network with Contextualized Representations of Turns in
Dialogue [0.0]
対話に基づく関係抽出(RE)は、対話に現れる2つの引数間の関係を抽出することを目的としている。
本稿では,対話の理解方法に着目したTUCORE-GCN(TUrn Context aware Graph Convolutional Network)を提案する。
論文 参考訳(メタデータ) (2021-09-09T03:09:08Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。