論文の概要: A non-hierarchical attention network with modality dropout for textual
response generation in multimodal dialogue systems
- arxiv url: http://arxiv.org/abs/2110.09702v2
- Date: Wed, 20 Oct 2021 03:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 11:41:09.519119
- Title: A non-hierarchical attention network with modality dropout for textual
response generation in multimodal dialogue systems
- Title(参考訳): マルチモーダル対話システムにおけるテキスト応答生成のためのモダリティドロップアウトを有する非階層型アテンションネットワーク
- Authors: Rongyi Sun, Borun Chen, Qingyu Zhou, Yinghui Li, YunBo Cao, Hai-Tao
Zheng
- Abstract要約: 本稿では,HREDフレームワークを捨て,各発話を符号化し,文脈表現をモデル化する非階層型アテンションネットワークを提案する。
提案手法は既存の手法より優れ,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 11.043581046605139
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing text- and image-based multimodal dialogue systems use the
traditional Hierarchical Recurrent Encoder-Decoder (HRED) framework, which has
an utterance-level encoder to model utterance representation and a
context-level encoder to model context representation. Although pioneer efforts
have shown promising performances, they still suffer from the following
challenges: (1) the interaction between textual features and visual features is
not fine-grained enough. (2) the context representation can not provide a
complete representation for the context. To address the issues mentioned above,
we propose a non-hierarchical attention network with modality dropout, which
abandons the HRED framework and utilizes attention modules to encode each
utterance and model the context representation. To evaluate our proposed model,
we conduct comprehensive experiments on a public multimodal dialogue dataset.
Automatic and human evaluation demonstrate that our proposed model outperforms
the existing methods and achieves state-of-the-art performance.
- Abstract(参考訳): 既存のテキストおよび画像に基づくマルチモーダル対話システムは、従来の階層的並行エンコーダ・デコーダ(HRED)フレームワークを使用しており、発話レベルエンコーダは発話レベルの表現をモデル化し、コンテキストレベルエンコーダはコンテキストレベルの表現をモデル化する。
先駆的な試みは有望なパフォーマンスを示しているが、それでも、(1)テキストの特徴と視覚的特徴の相互作用は、十分にきめ細かいものではない、という課題に苦しめられている。
(2)コンテキスト表現は、コンテキストの完全な表現を提供できない。
上記の問題に対処するため,我々はhredフレームワークを放棄し,アテンションモジュールを用いて各発話をエンコードし,文脈表現をモデル化するモダリティドロップアウトを用いた非階層的アテンションネットワークを提案する。
提案モデルを評価するため,公開マルチモーダル対話データセットの総合的な実験を行った。
自動評価と人的評価は,提案モデルが既存手法より優れ,最先端性能を実現することを示す。
関連論文リスト
- NEUCORE: Neural Concept Reasoning for Composed Image Retrieval [16.08214739525615]
NEUral Concept Reasoning モデルを提案する。
提案手法は3つのデータセットで評価し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-10-02T17:21:25Z) - 'What are you referring to?' Evaluating the Ability of Multi-Modal
Dialogue Models to Process Clarificational Exchanges [65.03196674816772]
参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。
出席者は、通常、そのような曖昧さをすぐに検知し、メタコミュニケーション、明確化取引所(CE: Meta-communicative, Clarification Exchanges)を使用して、話者と作業する。
ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。
論文 参考訳(メタデータ) (2023-07-28T13:44:33Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Dialogue Meaning Representation for Task-Oriented Dialogue Systems [51.91615150842267]
タスク指向対話のための柔軟かつ容易に拡張可能な表現である対話意味表現(DMR)を提案する。
我々の表現は、合成意味論とタスク固有の概念のためのリッチな意味論を表現するために、継承階層を持つノードとエッジのセットを含んでいる。
異なる機械学習ベースの対話モデルを評価するための2つの評価タスクを提案し、さらにグラフベースのコア参照解決タスクのための新しいコア参照解決モデルGNNCorefを提案する。
論文 参考訳(メタデータ) (2022-04-23T04:17:55Z) - Utterance Rewriting with Contrastive Learning in Multi-turn Dialogue [22.103162555263143]
比較学習とマルチタスク学習を導入し、問題を共同でモデル化する。
提案手法は,複数の公開データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-22T10:13:27Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。