論文の概要: SDIF-DA: A Shallow-to-Deep Interaction Framework with Data Augmentation
for Multi-modal Intent Detection
- arxiv url: http://arxiv.org/abs/2401.00424v1
- Date: Sun, 31 Dec 2023 08:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 17:32:55.199065
- Title: SDIF-DA: A Shallow-to-Deep Interaction Framework with Data Augmentation
for Multi-modal Intent Detection
- Title(参考訳): SDIF-DA:マルチモーダルインテント検出のためのデータ拡張による浅層間相互作用フレームワーク
- Authors: Shijue Huang, Libo Qin, Bingbing Wang, Geng Tu, Ruifeng Xu
- Abstract要約: マルチモーダルインテント検出における2つの課題は、モダリティの異なる特徴と限定ラベル付きマルチモーダルインテントトレーニングデータをどのように調整し、融合させるかである。
以上の課題に対処するため,データ拡張(F-DA)を用いた浅層間相互作用フレームワークを提案する。
実験結果から,SDIF-DAは最先端性能を達成し,マルチモーダル特徴を効果的に整合・融合できることが示された。
- 参考スコア(独自算出の注目度): 31.28456539029398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal intent detection aims to utilize various modalities to understand
the user's intentions, which is essential for the deployment of dialogue
systems in real-world scenarios. The two core challenges for multi-modal intent
detection are (1) how to effectively align and fuse different features of
modalities and (2) the limited labeled multi-modal intent training data. In
this work, we introduce a shallow-to-deep interaction framework with data
augmentation (SDIF-DA) to address the above challenges. Firstly, SDIF-DA
leverages a shallow-to-deep interaction module to progressively and effectively
align and fuse features across text, video, and audio modalities. Secondly, we
propose a ChatGPT-based data augmentation approach to automatically augment
sufficient training data. Experimental results demonstrate that SDIF-DA can
effectively align and fuse multi-modal features by achieving state-of-the-art
performance. In addition, extensive analyses show that the introduced data
augmentation approach can successfully distill knowledge from the large
language model.
- Abstract(参考訳): マルチモーダルインテント検出は,現実のシナリオにおける対話システムの展開に不可欠な,ユーザの意図を理解するために様々なモダリティを活用することを目的としている。
マルチモーダルインテント検出における2つの主な課題は,(1)異なるモダリティの特徴を効果的に調整し融合する方法,(2)限定ラベル付きマルチモーダルインテントトレーニングデータである。
本研究では,データ拡張(SDIF-DA)を用いた浅層間相互作用フレームワークを導入し,これらの課題に対処する。
まず、SDIF-DAは浅層から深層までの相互作用モジュールを利用して、テキスト、ビデオ、オーディオモダリティ間の機能を段階的に効果的に整列させ、融合させる。
次に,十分なトレーニングデータを自動的に強化するchatgptベースのデータ拡張手法を提案する。
実験の結果,SDIF-DAは最先端性能を達成し,マルチモーダル特徴を効果的に整合・融合できることが示された。
さらに,データ拡張手法の導入により,大規模言語モデルから知識を抽出することに成功した。
関連論文リスト
- MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Gated Mechanism Enhanced Multi-Task Learning for Dialog Routing [28.870359916550996]
ゲート機構強化マルチタスクモデル(G3M)
提案では、新しいダイアログエンコーダと、2つの調整されたゲート機構モジュールを提案する。
実世界のアプリケーションから収集した2つのデータセットに基づいて,本手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2023-04-07T16:51:46Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - PIN: A Novel Parallel Interactive Network for Spoken Language
Understanding [68.53121591998483]
既存の RNN ベースのアプローチでは、ID と SF のタスクは、それらの間の相関情報を利用するために、しばしば共同でモデル化される。
SNIPSとATISという2つのベンチマークデータセットによる実験は、我々のアプローチの有効性を実証している。
さらに,事前学習した言語モデルBERTが生成した発話の特徴埋め込みを用いて,提案手法はすべての比較手法の中で最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-09-28T15:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。