論文の概要: Modeling Coreference Relations in Visual Dialog
- arxiv url: http://arxiv.org/abs/2203.02986v1
- Date: Sun, 6 Mar 2022 15:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 05:55:36.460658
- Title: Modeling Coreference Relations in Visual Dialog
- Title(参考訳): ビジュアルダイアログにおける相関関係のモデル化
- Authors: Mingxiao Li, Marie-Francine Moens
- Abstract要約: ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
- 参考スコア(独自算出の注目度): 18.926582410644375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual dialog is a vision-language task where an agent needs to answer a
series of questions grounded in an image based on the understanding of the
dialog history and the image. The occurrences of coreference relations in the
dialog makes it a more challenging task than visual question-answering. Most
previous works have focused on learning better multi-modal representations or
on exploring different ways of fusing visual and language features, while the
coreferences in the dialog are mainly ignored. In this paper, based on
linguistic knowledge and discourse features of human dialog we propose two soft
constraints that can improve the model's ability of resolving coreferences in
dialog in an unsupervised way. Experimental results on the VisDial v1.0 dataset
shows that our model, which integrates two novel and linguistically inspired
soft constraints in a deep transformer neural architecture, obtains new
state-of-the-art performance in terms of recall at 1 and other evaluation
metrics compared to current existing models and this without pretraining on
other vision-language datasets. Our qualitative results also demonstrate the
effectiveness of the method that we propose.
- Abstract(参考訳): ビジュアルダイアログは、エージェントがダイアログ履歴と画像の理解に基づいて、画像に根拠付けられた一連の質問に答える必要がある視覚言語タスクである。
ダイアログ内で相互参照関係が発生すると、視覚的な質問応答よりも難しいタスクになる。
これまでのほとんどの研究は、より優れたマルチモーダル表現の学習や、視覚的特徴と言語的特徴を融合する方法の探索に重点を置いてきた。
本稿では,ヒューマンダイアログの言語的知識と談話的特徴に基づき,教師なしの方法でダイアログにおけるコリファレンスを解決するモデルの能力を向上させる2つのソフト制約を提案する。
visdial v1.0データセットの実験的結果は、深層トランスフォーマリンアーキテクチャに2つの新しい言語にインスパイアされたソフト制約を統合したモデルが、既存のモデルや他の視覚言語データセットを事前トレーニングすることなく、既存のモデルと比較して1や他の評価指標をリコールする点で、新たな最先端のパフォーマンスを得ることを示している。
また,提案手法の有効性を定性的に検証した。
関連論文リスト
- Visualizing Dialogues: Enhancing Image Selection through Dialogue Understanding with Large Language Models [25.070424546200293]
本稿では,大規模言語モデル(LLM)の頑健な推論機能を活用して,正確な対話関連視覚記述子を生成する手法を提案する。
ベンチマークデータを用いて行った実験は、簡潔で正確な視覚記述子の導出における提案手法の有効性を検証した。
本研究は,多様な視覚的手がかり,多様なLCM,異なるデータセットにまたがる手法の一般化可能性を示すものである。
論文 参考訳(メタデータ) (2024-07-04T03:50:30Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - DialogZoo: Large-Scale Dialog-Oriented Task Learning [52.18193690394549]
我々は,多種多様な対話課題を解くための統合基盤モデルの構築を目指している。
この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。
論文 参考訳(メタデータ) (2022-05-25T11:17:16Z) - Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog [12.034554338597067]
マルチストラクチャ・コモンセンス・ナレッジ(RMK)を用いた新しいモデルを提案する。
我々のモデルでは、外部知識は文レベルの事実とグラフレベルの事実で表される。
これらの多構造表現の上に、我々のモデルは関連する知識を捉え、それらを視覚と意味的特徴に組み込むことができる。
論文 参考訳(メタデータ) (2022-04-10T13:12:10Z) - VU-BERT: A Unified framework for Visual Dialog [34.4815433301286]
本稿では,VU-BERTという画像テキスト共同埋め込みのための統合フレームワークを提案し,視覚対話タスクに視覚埋め込みを実現するためにパッチプロジェクションを適用した。
このモデルは、マスク付き言語モデリングと次の発話検索という2つのタスクで訓練されている。
論文 参考訳(メタデータ) (2022-02-22T10:20:14Z) - Representation Learning for Conversational Data using Discourse Mutual
Information Maximization [9.017156603976915]
構造を意識しない単語・バイ・ワード生成は効果的な会話モデリングには適さないと我々は主張する。
対話表現モデルの学習のための構造認識型相互情報に基づく損失関数DMIを提案する。
本モデルでは,対話評価タスクであるDailyDialog++において,ランダムな負のシナリオと逆のシナリオの両方において,最も有望な性能を示す。
論文 参考訳(メタデータ) (2021-12-04T13:17:07Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。