論文の概要: Multimodal Dialog Systems with Dual Knowledge-enhanced Generative
Pretrained Language Model
- arxiv url: http://arxiv.org/abs/2207.07934v1
- Date: Sat, 16 Jul 2022 13:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 18:18:53.088545
- Title: Multimodal Dialog Systems with Dual Knowledge-enhanced Generative
Pretrained Language Model
- Title(参考訳): Dual Knowledge-enhanced Generative Pretrained Language Model を用いたマルチモーダル対話システム
- Authors: Xiaolin Chen, Xuemeng Song, Liqiang Jing, Shuo Li, Linmei Hu, and
Liqiang Nie
- Abstract要約: マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
- 参考スコア(独自算出の注目度): 52.209876738711664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text response generation for multimodal task-oriented dialog systems, which
aims to generate the proper text response given the multimodal context, is an
essential yet challenging task. Although existing efforts have achieved
compelling success, they still suffer from two pivotal limitations: 1) overlook
the benefit of generative pre-training, and 2) ignore the textual context
related knowledge. To address these limitations, we propose a novel dual
knowledge-enhanced generative pretrained language model for multimodal
task-oriented dialog systems (DKMD), consisting of three key components: dual
knowledge selection, dual knowledge-enhanced context learning, and
knowledge-enhanced response generation. To be specific, the dual knowledge
selection component aims to select the related knowledge according to both
textual and visual modalities of the given context. Thereafter, the dual
knowledge-enhanced context learning component targets seamlessly integrating
the selected knowledge into the multimodal context learning from both global
and local perspectives, where the cross-modal semantic relation is also
explored. Moreover, the knowledge-enhanced response generation component
comprises a revised BART decoder, where an additional dot-product
knowledge-decoder attention sub-layer is introduced for explicitly utilizing
the knowledge to advance the text response generation. Extensive experiments on
a public dataset verify the superiority of the proposed DKMD over
state-of-the-art competitors.
- Abstract(参考訳): マルチモーダル・タスク指向対話システムにおけるテキスト応答生成は,マルチモーダル・コンテキストによって適切なテキスト応答を生成することを目的としている。
既存の取り組みは説得力のある成功を収めたが、それでも2つの重要な制限に苦しめられている。
1) 生成前訓練の利点を見落として,
2)テキスト文脈関連知識を無視する。
これらの制約に対処するために,我々は,二重知識選択,二重知識強化コンテキスト学習,知識強化応答生成という3つの重要な構成要素からなるマルチモーダルタスク指向対話システム (dkmd) のための,新しい二重知識強化前訓練言語モデルを提案する。
具体的には、2つの知識選択コンポーネントは、与えられたコンテキストのテクスチャと視覚の両方に応じて関連する知識を選択することを目的としている。
その後、二元的知識強化コンテキスト学習コンポーネントは、選択した知識をグローバルとローカルの両方の観点からマルチモーダルな文脈学習にシームレスに統合する。
さらに、知識エンハンス応答生成コンポーネントは、テキスト応答生成を前進させるために知識を明示的に利用するために、追加のドット製品ナレッジデコーダアテンションサブ層が導入される改訂されたバートデコーダを含む。
パブリックデータセットの大規模な実験により、提案されたDKMDが最先端の競合相手よりも優れていることを検証する。
関連論文リスト
- Distilling Implicit Multimodal Knowledge into LLMs for Zero-Resource Dialogue Generation [22.606764428110566]
ゼロリソースコンテキストにおけるリッチな対話生成のための視覚的暗黙的知識蒸留フレームワーク(VIKDF)を提案する。
VIKDFは、知識蒸留と知識統合の2つの主要な段階で構成されている。
実験の結果,VIKDFは,高品質な対話を生成する上で,既存の最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-16T14:21:33Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - Topic-Aware Response Generation in Task-Oriented Dialogue with
Unstructured Knowledge Access [20.881612071473118]
課題指向対話における話題情報をよりよく統合するために,トピック認識応答生成(TARG)を提案する。
TARGは、対話発話や外部知識ソースよりも重要度重み付け方式を導出するために、複数の話題認識型アテンション機構を組み込んでいる。
論文 参考訳(メタデータ) (2022-12-10T22:32:28Z) - TegTok: Augmenting Text Generation via Task-specific and Open-world
Knowledge [83.55215993730326]
本稿では,タスク固有およびオープンワールド知識(TegTok)によるTExt生成の統一化を提案する。
本モデルでは,2種類の知識ソースからの知識エントリを高密度検索により選択し,それぞれ入力エンコーディングと出力デコーディングの段階に注入する。
論文 参考訳(メタデータ) (2022-03-16T10:37:59Z) - Knowledge Augmented BERT Mutual Network in Multi-turn Spoken Dialogues [6.4144180888492075]
本稿では,2つのSLUタスク間の対話コンテキストを相互に活用するために,BERTベースのジョイントモデルとナレッジアテンションモジュールを備えることを提案する。
さらにゲーティング機構を利用して、無関係な知識三重項をフィルタリングし、気を散らす理解を回避する。
2つの複雑なマルチターン対話データセットの実験的結果は、2つのSLUタスクをフィルター付き知識と対話コンテキストで相互にモデル化することで実証された。
論文 参考訳(メタデータ) (2022-02-23T04:03:35Z) - Knowledge-Grounded Dialogue Generation with a Unified Knowledge
Representation [78.85622982191522]
既存のシステムは、トレーニングデータでカバーされる限られたトピックのために、目に見えないトピックでうまく機能しない。
本稿では,異なる知識源を均質化した言語モデルであるPLUGについて述べる。
完全に教師された設定の下で最先端のメソッドと同等のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-12-15T07:11:02Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。