論文の概要: History for Visual Dialog: Do we really need it?
- arxiv url: http://arxiv.org/abs/2005.07493v1
- Date: Fri, 8 May 2020 14:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:32:53.982104
- Title: History for Visual Dialog: Do we really need it?
- Title(参考訳): Visual Dialogの歴史:本当に必要か?
- Authors: Shubham Agarwal, Trung Bui, Joon-Young Lee, Ioannis Konstas, Verena
Rieser
- Abstract要約: ダイアログ履歴を明示的にエンコードするコアテンションモデルは、そうでないモデルよりも優れていることを示す。
また、クラウドソーシングデータセット収集手順の欠点も明らかにした。
- 参考スコア(独自算出の注目度): 55.642625058602924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Dialog involves "understanding" the dialog history (what has been
discussed previously) and the current question (what is asked), in addition to
grounding information in the image, to generate the correct response. In this
paper, we show that co-attention models which explicitly encode dialog history
outperform models that don't, achieving state-of-the-art performance (72 % NDCG
on val set). However, we also expose shortcomings of the crowd-sourcing dataset
collection procedure by showing that history is indeed only required for a
small amount of the data and that the current evaluation metric encourages
generic replies. To that end, we propose a challenging subset (VisDialConv) of
the VisDial val set and provide a benchmark of 63% NDCG.
- Abstract(参考訳): ビジュアルダイアログには、ダイアログ履歴(以前議論されたもの)と現在の質問(質問されたもの)の“理解”に加えて、画像内の情報を接地して正しい応答を生成する。
本稿では, 対話履歴を明示的に符号化したコアテンションモデルにおいて, 最先端の性能(val集合上のNDCGの72 %)を実現する。
しかし, クラウドソーシングによるデータセット収集手法の欠点は, 少数のデータに対して履歴が本当に必要であり, 現在の評価基準が一般的な応答を促進することにある。
そこで我々は、VisDial val の挑戦的部分集合 (VisDialConv) を提案し、63% NDCG のベンチマークを提供する。
関連論文リスト
- Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations [3.784841749866846]
MDST(Multi-round Dialogue State Tracking Model)を導入する。
MDSTは、内的対話状態表現を視覚言語表現の2-タプルとして定義し、各ラウンドの対話履歴をキャプチャする。
VisDial v1.0データセットの実験結果は、MDSTが生成環境において新しい最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2024-08-13T08:36:15Z) - InfoVisDial: An Informative Visual Dialogue Dataset by Bridging Large
Multimodal and Language Models [123.1441379479263]
我々はInfoVisDialという名前のビジュアル対話データセットを構築し、各ラウンドで豊富な情報を提供する。
効果的なデータ収集のための鍵となるアイデアは、大規模マルチモーダルモデル(GITなど)と言語モデル(GPT-3など)をブリッジすることである。
論文 参考訳(メタデータ) (2023-12-21T00:44:45Z) - q2d: Turning Questions into Dialogs to Teach Models How to Search [11.421839177607147]
質問から情報検索ダイアログを生成する自動データ生成パイプラインであるq2dを提案する。
検索クエリによる人書きダイアログに依存する従来の手法とは異なり,提案手法では,より優れた制御とスケールで,クエリベースの基底ダイアログを自動的に生成することができる。
論文 参考訳(メタデータ) (2023-04-27T16:39:15Z) - Weakly Supervised Data Augmentation Through Prompting for Dialogue
Understanding [103.94325597273316]
本稿では,弱教師付きフィルタを適用して拡張品質を反復する手法を提案する。
我々は、デイリーダイアログにおける感情と行動の分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図の分類タスクについて評価した。
特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2022-10-25T17:01:30Z) - What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!? [4.022057598291766]
我々は,MultiWOZ,SGD,SMCalFlowの対話効果と文脈効果の分類を概説する。
我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話型であるのに対して、SMCalFlowは現在のリリースでは会話型ではないことを発見した。
論文 参考訳(メタデータ) (2022-03-07T14:26:23Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。