論文の概要: DAM: Deliberation, Abandon and Memory Networks for Generating Detailed
and Non-repetitive Responses in Visual Dialogue
- arxiv url: http://arxiv.org/abs/2007.03310v1
- Date: Tue, 7 Jul 2020 09:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:39:36.796841
- Title: DAM: Deliberation, Abandon and Memory Networks for Generating Detailed
and Non-repetitive Responses in Visual Dialogue
- Title(参考訳): DAM:視覚対話における詳細・非反復応答生成のための検討・放棄・記憶ネットワーク
- Authors: Xiaoze Jiang, Jing Yu, Yajing Sun, Zengchang Qin, Zihao Zhu, Yue Hu,
Qi Wu
- Abstract要約: 高品質な応答を生成するための新しい生成復号アーキテクチャを提案する。
このアーキテクチャでは、単語生成は一連の注意に基づく情報選択ステップに分解される。
応答は、意味的正確性を維持しながら、より詳細で反復的でない記述を含む。
- 参考スコア(独自算出の注目度): 29.330198609132207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Dialogue task requires an agent to be engaged in a conversation with
human about an image. The ability of generating detailed and non-repetitive
responses is crucial for the agent to achieve human-like conversation. In this
paper, we propose a novel generative decoding architecture to generate
high-quality responses, which moves away from decoding the whole encoded
semantics towards the design that advocates both transparency and flexibility.
In this architecture, word generation is decomposed into a series of
attention-based information selection steps, performed by the novel recurrent
Deliberation, Abandon and Memory (DAM) module. Each DAM module performs an
adaptive combination of the response-level semantics captured from the encoder
and the word-level semantics specifically selected for generating each word.
Therefore, the responses contain more detailed and non-repetitive descriptions
while maintaining the semantic accuracy. Furthermore, DAM is flexible to
cooperate with existing visual dialogue encoders and adaptive to the encoder
structures by constraining the information selection mode in DAM. We apply DAM
to three typical encoders and verify the performance on the VisDial v1.0
dataset. Experimental results show that the proposed models achieve new
state-of-the-art performance with high-quality responses. The code is available
at https://github.com/JXZe/DAM.
- Abstract(参考訳): 視覚対話タスクでは、エージェントが画像について人間と会話することが必要となる。
詳細かつ非反復的な応答を生成する能力は、エージェントが人間のような会話を達成するために不可欠である。
本稿では,高品質な応答を生成するための新しい生成型デコーディングアーキテクチャを提案する。
このアーキテクチャでは、単語生成を一連の注意に基づく情報選択ステップに分解し、新しいリカレントDeliberation, Abandon and Memory (DAM)モジュールによって実行される。
各DAMモジュールは、エンコーダから取得した応答レベルセマンティクスと、各単語を生成するために選択されたワードレベルセマンティクスとを適応的に組み合わせる。
したがって、応答は意味的精度を維持しながら、より詳細で反復的でない記述を含む。
さらに、DAMは、既存の視覚対話エンコーダと協調し、DAMの情報選択モードを制約することにより、エンコーダ構造に適応する。
3つの典型的なエンコーダにDAMを適用し、VisDial v1.0データセットのパフォーマンスを検証する。
実験結果から,提案モデルでは,高品質な応答を持つ新しい最先端性能が得られた。
コードはhttps://github.com/jxze/damで入手できる。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Disentangled Variational Autoencoder for Emotion Recognition in
Conversations [14.92924920489251]
会話(ERC)における感情認識のためのVAD-VAE(VAD-VAE)を提案する。
VAD-VAEは3つをアンタングルし、Valence-Arousal-Dominance(VAD)を潜在空間から表現する。
実験により、VAD-VAEは2つのデータセット上で最先端のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:50:06Z) - Dialogue Meaning Representation for Task-Oriented Dialogue Systems [51.91615150842267]
タスク指向対話のための柔軟かつ容易に拡張可能な表現である対話意味表現(DMR)を提案する。
我々の表現は、合成意味論とタスク固有の概念のためのリッチな意味論を表現するために、継承階層を持つノードとエッジのセットを含んでいる。
異なる機械学習ベースの対話モデルを評価するための2つの評価タスクを提案し、さらにグラフベースのコア参照解決タスクのための新しいコア参照解決モデルGNNCorefを提案する。
論文 参考訳(メタデータ) (2022-04-23T04:17:55Z) - Do Encoder Representations of Generative Dialogue Models Encode
Sufficient Information about the Task ? [41.36218215755317]
対話モデルの言語理解の健全さを適切に評価するには,人的・自動的な指標によるテキストの評価が不十分であることを示す。
本稿では,対話モデルで一般的に使用される言語エンコーダのエンコーダ表現を評価するための探索タスクを提案する。
論文 参考訳(メタデータ) (2021-06-20T04:52:37Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z) - A Template-guided Hybrid Pointer Network for
Knowledge-basedTask-oriented Dialogue Systems [15.654119998970499]
本稿では,知識に基づくタスク指向対話システムのためのテンプレート誘導型ハイブリッドポインタネットワークを提案する。
本研究では,ゲーティング機構を備えたメモリポインタネットワークモデルを設計し,検索した回答と接地トラス応答とのセマンティックな相関関係をフル活用する。
論文 参考訳(メタデータ) (2021-06-10T15:49:26Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。