論文の概要: Dual Semantic Knowledge Composed Multimodal Dialog Systems
- arxiv url: http://arxiv.org/abs/2305.09990v1
- Date: Wed, 17 May 2023 06:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:14:18.393081
- Title: Dual Semantic Knowledge Composed Multimodal Dialog Systems
- Title(参考訳): デュアルセマンティック知識を用いたマルチモーダル対話システム
- Authors: Xiaolin Chen, Xuemeng Song, Yinwei Wei, Liqiang Nie, Tat-Seng Chua
- Abstract要約: 本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
- 参考スコア(独自算出の注目度): 114.52730430047589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual response generation is an essential task for multimodal task-oriented
dialog systems.Although existing studies have achieved fruitful progress, they
still suffer from two critical limitations: 1) focusing on the attribute
knowledge but ignoring the relation knowledge that can reveal the correlations
between different entities and hence promote the response generation}, and 2)
only conducting the cross-entropy loss based output-level supervision but
lacking the representation-level regularization. To address these limitations,
we devise a novel multimodal task-oriented dialog system (named MDS-S2).
Specifically, MDS-S2 first simultaneously acquires the context related
attribute and relation knowledge from the knowledge base, whereby the
non-intuitive relation knowledge is extracted by the n-hop graph walk.
Thereafter, considering that the attribute knowledge and relation knowledge can
benefit the responding to different levels of questions, we design a
multi-level knowledge composition module in MDS-S2 to obtain the latent
composed response representation. Moreover, we devise a set of latent query
variables to distill the semantic information from the composed response
representation and the ground truth response representation, respectively, and
thus conduct the representation-level semantic regularization. Extensive
experiments on a public dataset have verified the superiority of our proposed
MDS-S2. We have released the codes and parameters to facilitate the research
community.
- Abstract(参考訳): テキスト応答生成はマルチモーダルなタスク指向対話システムにとって不可欠なタスクであり、既存の研究は実りある進歩を遂げているが、それでも2つの限界を被っている。
1)属性知識に焦点をあてるが、異なる実体間の相関関係を明らかにし、それゆえ応答生成を促進する関係知識を無視する。
2) クロスエントロピー損失に基づく出力レベルの監督を行うが, 表現レベルの正規化を欠く。
これらの制約に対処するため,新しいマルチモーダルタスク指向対話システム(MDS-S2)を開発した。
具体的には、まずmds-s2が知識ベースから文脈関連属性と関係知識を同時に取得し、nホップグラフウォークによって非直観的関係知識を抽出する。
その後、属性知識と関係知識が、異なるレベルの質問に対する応答に有益であると考え、mds-s2で多レベル知識合成モジュールを設計し、潜在合成応答表現を得る。
さらに、合成された応答表現と基底真理応答表現から意味情報を抽出するために、潜在クエリ変数の集合を考案し、表現レベルの意味正規化を行う。
公開データセットに対する大規模な実験により,提案したMDS-S2の優位性が確認された。
研究コミュニティを促進するためのコードとパラメータをリリースしました。
関連論文リスト
- UniMS-RAG: A Unified Multi-source Retrieval-Augmented Generation for
Personalized Dialogue Systems [44.893215129952395]
大規模言語モデル(LLM)は多くの自然言語理解および生成タスクにおいて例外的な機能を示している。
我々は、パーソナライズされた応答を3つのサブタスク(知識ソース選択、知識検索、応答生成)に分解する。
統一多ソース検索拡張生成システム(UniMS-RAG)を提案する。
論文 参考訳(メタデータ) (2024-01-24T06:50:20Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual
Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。
具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。
最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文 参考訳(メタデータ) (2023-12-20T02:35:18Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Diverse and Faithful Knowledge-Grounded Dialogue Generation via
Sequential Posterior Inference [82.28542500317445]
本稿では,知識の選択と対話生成が可能な,逐次後推論(Sequential Posterior Inference, SPI)と呼ばれるエンドツーエンド学習フレームワークを提案する。
他の方法とは異なり、SPIは推論ネットワークを必要とせず、後部分布の単純な幾何学を仮定する。
論文 参考訳(メタデータ) (2023-06-01T21:23:13Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model [63.461030694700014]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z) - M2R2: Missing-Modality Robust emotion Recognition framework with
iterative data augmentation [6.962213869946514]
学習された共通表現による反復的データ拡張で感情認識モデルを訓練するミス・モダリティ・ロバスト感情認識(M2R2)を提案する。
Party Attentive Network (PANet)は、すべての話者の状態と状況を追跡する感情を分類するために設計された。
論文 参考訳(メタデータ) (2022-05-05T09:16:31Z) - Knowledge Augmented BERT Mutual Network in Multi-turn Spoken Dialogues [6.4144180888492075]
本稿では,2つのSLUタスク間の対話コンテキストを相互に活用するために,BERTベースのジョイントモデルとナレッジアテンションモジュールを備えることを提案する。
さらにゲーティング機構を利用して、無関係な知識三重項をフィルタリングし、気を散らす理解を回避する。
2つの複雑なマルチターン対話データセットの実験的結果は、2つのSLUタスクをフィルター付き知識と対話コンテキストで相互にモデル化することで実証された。
論文 参考訳(メタデータ) (2022-02-23T04:03:35Z) - Leveraging Semantic Parsing for Relation Linking over Knowledge Bases [80.99588366232075]
本稿では,AMRを用いた意味解析と遠隔監視を利用した関係リンクフレームワークであるSlingを提案する。
Slingは複数の関係リンクアプローチを統合し、言語的手がかり、豊かな意味表現、知識ベースからの情報などの補完的な信号をキャプチャする。
QALD-7, QALD-9, LC-QuAD 1.0という3つのKBQAデータセットを用いた関係リンク実験により, 提案手法が全てのベンチマークで最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2020-09-16T14:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。