論文の概要: Scene-Aware Prompt for Multi-modal Dialogue Understanding and Generation
- arxiv url: http://arxiv.org/abs/2207.01823v1
- Date: Tue, 5 Jul 2022 05:54:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 13:20:06.526318
- Title: Scene-Aware Prompt for Multi-modal Dialogue Understanding and Generation
- Title(参考訳): マルチモーダル対話理解と生成のためのシーン認識プロンプト
- Authors: Bin Li, Yixuan Weng, Ziyu Ma, Bin Sun and Shutao Li
- Abstract要約: 本稿では,NLPCC-2022-Shared-Task-4マルチモーダル対話理解・生成(MDUG)におけるTeam LingJingの実験手法を紹介する。
MDUGタスクは、マルチモーダルコンテキスト理解と応答生成の2つのフェーズに分けられる。
シーン理解と対話生成の両方に視覚情報をフル活用するために,MDUGタスクのためのシーン認識プロンプトを提案する。
- 参考スコア(独自算出の注目度): 20.693465164885325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the schemes of Team LingJing's experiments in
NLPCC-2022-Shared-Task-4 Multi-modal Dialogue Understanding and Generation
(MDUG). The MDUG task can be divided into two phases: multi-modal context
understanding and response generation. To fully leverage the visual information
for both scene understanding and dialogue generation, we propose the
scene-aware prompt for the MDUG task. Specifically, we utilize the
multi-tasking strategy for jointly modelling the scene- and session-
multi-modal understanding. The visual captions are adopted to aware the scene
information, while the fixed-type templated prompt based on the scene- and
session-aware labels are used to further improve the dialogue generation
performance. Extensive experimental results show that the proposed method has
achieved state-of-the-art (SOTA) performance compared with other competitive
methods, where we rank the 1-st in all three subtasks in this MDUG competition.
- Abstract(参考訳): 本稿では,NLPCC-2022-Shared-Task-4 における Team LingJing の実験手法について紹介する。
MDUGタスクは、マルチモーダルコンテキスト理解と応答生成の2つのフェーズに分けられる。
シーン理解と対話生成の両方に視覚情報をフル活用するために,MDUGタスクのためのシーン認識プロンプトを提案する。
具体的には,マルチタスク戦略を用いてシーンとセッションのマルチモーダル理解を協調的にモデル化する。
シーン情報を認識するために視覚キャプションを採用し、シーンラベル及びセッション認識ラベルに基づく固定型テンプレート化されたプロンプトを使用して対話生成性能をさらに向上する。
実験結果から,提案手法は,他の競合手法と比較して最先端(SOTA)性能を達成し,このMDUGコンペティションにおいて3つのサブタスクで1位となった。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - UniDU: Towards A Unified Generative Dialogue Understanding Framework [62.8474841241855]
DUタスク間の情報交換を実現するために,統合された生成対話理解フレームワークであるUniDUについて検討する。
我々は,5つの基本課題にまたがる10の対話理解データセットの実験を行う。
提案したUniDUフレームワークは5つのタスクすべてにおいてタスク固有のよく設計されたメソッドよりも優れている。
論文 参考訳(メタデータ) (2022-04-10T09:32:34Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Multi-View Attention Network for Visual Dialog [5.731758300670842]
1) エージェントが質問の意味的意図を判断し, 2) 質問関連テキスト, 視覚的内容の調整を行う必要がある。
異種入力に関する複数のビューを利用するマルチビュー注意ネットワーク(MVAN)を提案する。
MVANは、2つの補完モジュールでダイアログ履歴から質問関連情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z) - Bridging Text and Video: A Universal Multimodal Transformer for
Video-Audio Scene-Aware Dialog [39.01822389691502]
マルチモーダル変換器を提案するとともに,異なるモーダル間の関節表現を学習するためのマルチタスク学習手法を提案する。
提案手法は,自然言語生成事前学習モデルからマルチモーダル対話生成タスクまで拡張する。
論文 参考訳(メタデータ) (2020-02-01T07:50:43Z) - Multi-step Joint-Modality Attention Network for Scene-Aware Dialogue
System [13.687071779732285]
本稿では,リカレントニューラルネットワーク(RNN)に基づく多段階共同モダリティアテンションネットワーク(JMAN)を提案する。
本モデルでは,ROUGE-LスコアとCIDErスコアのベースラインよりも12.1%,22.4%向上した。
論文 参考訳(メタデータ) (2020-01-17T09:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。