論文の概要: TECO: Improving Multimodal Intent Recognition with Text Enhancement through Commonsense Knowledge Extraction
- arxiv url: http://arxiv.org/abs/2412.08529v1
- Date: Wed, 11 Dec 2024 16:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:48.330764
- Title: TECO: Improving Multimodal Intent Recognition with Text Enhancement through Commonsense Knowledge Extraction
- Title(参考訳): TECO:コモンセンス知識抽出によるテキスト強調によるマルチモーダルインテント認識の改善
- Authors: Quynh-Mai Thi Nguyen, Lan-Nhi Thi Nguyen, Cam-Van Thi Nguyen,
- Abstract要約: 本稿では,これらの課題に対処するために,コミュオンセンス・ナレッジ・エクストラクタ(TECO)を用いたテキスト強調手法を提案する。
まず、生成した知識と検索した知識の両方から関係を抽出し、テキストモダリティにおける文脈情報を強化する。
そして、これらの強化されたテキスト特徴と視覚的および音響的表現を整合して、結合的なマルチモーダル表現を形成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The objective of multimodal intent recognition (MIR) is to leverage various modalities-such as text, video, and audio-to detect user intentions, which is crucial for understanding human language and context in dialogue systems. Despite advances in this field, two main challenges persist: (1) effectively extracting and utilizing semantic information from robust textual features; (2) aligning and fusing non-verbal modalities with verbal ones effectively. This paper proposes a Text Enhancement with CommOnsense Knowledge Extractor (TECO) to address these challenges. We begin by extracting relations from both generated and retrieved knowledge to enrich the contextual information in the text modality. Subsequently, we align and integrate visual and acoustic representations with these enhanced text features to form a cohesive multimodal representation. Our experimental results show substantial improvements over existing baseline methods.
- Abstract(参考訳): マルチモーダル・インテント認識(MIR)の目的は、対話システムにおける人間の言語や文脈を理解するために不可欠である、テキスト、ビデオ、音声などの様々なモダリティを活用することである。
この分野での進歩にもかかわらず、(1)頑健なテクストの特徴から意味情報を効果的に抽出・活用すること、(2)非言語的モーダルを言語的特徴と効果的に整合・融合すること、の2つの主要な課題が続いている。
本稿では,これらの課題に対処するために,コミュオンセンス・ナレッジ・エクストラクタ(TECO)を用いたテキスト強調手法を提案する。
まず、生成した知識と検索した知識の両方から関係を抽出し、テキストモダリティにおける文脈情報を強化する。
その後、これらの拡張されたテキスト特徴と視覚的および音響的表現を整合して、結合的なマルチモーダル表現を形成する。
実験の結果,既存のベースライン法よりも大幅に改善した。
関連論文リスト
- Mamba-Enhanced Text-Audio-Video Alignment Network for Emotion Recognition in Conversations [15.748798247815298]
本稿では,会話における感情認識のための新しいマンバエンハンステキスト・ビデオアライメントネットワーク(MaTAV)を提案する。
MaTAVは、異なるモダリティ間の整合性を確保するためにユニモーダル機能を整列させ、コンテキストのマルチモーダル情報をよりよくキャプチャするために長い入力シーケンスを処理するという利点がある。
論文 参考訳(メタデータ) (2024-09-08T23:09:22Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - KETM:A Knowledge-Enhanced Text Matching method [0.0]
知識強化テキストマッチングモデル(KETM)と呼ばれるテキストマッチングの新しいモデルを提案する。
テキストワード定義を外部知識として検索するために、Wiktionaryを使用します。
我々は、ゲーティング機構を用いてテキストと知識を融合させ、テキストと知識融合の比率を学習する。
論文 参考訳(メタデータ) (2023-08-11T17:08:14Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model [63.461030694700014]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z) - Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene
Text Recognition [60.36540008537054]
本研究では,従来のテキスト認識における文字数カウントという暗黙のタスクを,追加的な注釈コストなしで発掘する。
両タスクの機能を適切に活用するために,2分岐の相反的特徴学習フレームワークを設計する。
7つのベンチマークの実験では、テキスト認識と新しい文字カウントタスクの両方において提案手法の利点が示されている。
論文 参考訳(メタデータ) (2021-05-13T12:27:35Z) - Improving Machine Reading Comprehension with Contextualized Commonsense
Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。
構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。
我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文 参考訳(メタデータ) (2020-09-12T17:20:01Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - Matching Text with Deep Mutual Information Estimation [0.0]
本稿では,深い相互情報推定を組み込んだ汎用テキストマッチングのためのニューラルネットワークを提案する。
提案手法は,Deep Info Max (TIM) を用いたテキストマッチングであり,表現の教師なし学習手法と統合されている。
自然言語推論,パラフレーズ識別,解答選択など,いくつかのタスクにおけるテキストマッチング手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-09T15:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。