論文の概要: Double Mixture: Towards Continual Event Detection from Speech
- arxiv url: http://arxiv.org/abs/2404.13289v2
- Date: Mon, 28 Oct 2024 03:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 16:01:19.334848
- Title: Double Mixture: Towards Continual Event Detection from Speech
- Title(参考訳): 二重混合:音声からの連続事象検出を目指して
- Authors: Jingqi Kang, Tongtong Wu, Jinming Zhao, Guitao Wang, Yinwei Wei, Hao Yang, Guilin Qi, Yuan-Fang Li, Gholamreza Haffari,
- Abstract要約: 音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
- 参考スコア(独自算出の注目度): 60.33088725100812
- License:
- Abstract: Speech event detection is crucial for multimedia retrieval, involving the tagging of both semantic and acoustic events. Traditional ASR systems often overlook the interplay between these events, focusing solely on content, even though the interpretation of dialogue can vary with environmental context. This paper tackles two primary challenges in speech event detection: the continual integration of new events without forgetting previous ones, and the disentanglement of semantic from acoustic events. We introduce a new task, continual event detection from speech, for which we also provide two benchmark datasets. To address the challenges of catastrophic forgetting and effective disentanglement, we propose a novel method, 'Double Mixture.' This method merges speech expertise with robust memory mechanisms to enhance adaptability and prevent forgetting. Our comprehensive experiments show that this task presents significant challenges that are not effectively addressed by current state-of-the-art methods in either computer vision or natural language processing. Our approach achieves the lowest rates of forgetting and the highest levels of generalization, proving robust across various continual learning sequences. Our code and data are available at https://anonymous.4open.science/status/Continual-SpeechED-6461.
- Abstract(参考訳): 音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
従来のASRシステムは、対話の解釈が環境の文脈によって異なるとしても、コンテンツにのみ焦点をあてて、これらの出来事間の相互作用を見落としていることが多い。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
音声からの連続イベント検出という新しいタスクを導入し、2つのベンチマークデータセットを提供する。
破滅的な忘れ込みと効果的な切り離しの課題に対処するため,我々は「二重混合」という新しい手法を提案する。
本手法は, 適応性を高め, 忘れないように, 頑健な記憶機構と音声の専門知識を融合する。
この課題は,コンピュータビジョンや自然言語処理において,現在最先端の手法では効果的に対処できない重要な課題であることを示す。
提案手法は,様々な連続的な学習シーケンスにまたがって,最小の忘れ込み率と最高レベルの一般化を実現している。
私たちのコードとデータはhttps://anonymous.4open.science/status/Continual-SpeechED-6461で公開されています。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Towards Event Extraction from Speech with Contextual Clues [61.164413398231254]
本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。
テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。
我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
論文 参考訳(メタデータ) (2024-01-27T11:07:19Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - DeepSafety:Multi-level Audio-Text Feature Extraction and Fusion Approach
for Violence Detection in Conversations [2.8038382295783943]
会話における言葉と発声の手がかりの選択は、個人の安全と犯罪防止のための自然言語データの不足した豊富な情報源を示す。
本稿では,会話における暴力行為の程度を検出するために,多段階の特徴を抽出・融合する新たな情報融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T16:45:50Z) - Unsupervised Key Event Detection from Massive Text Corpora [42.31889135421941]
本稿では,ニュースコーパスキーイベントから検出することを目的とした,中間レベルでのキーイベント検出という新たなタスクを提案する。
このタスクは、イベントの理解と構造化をブリッジすることができ、キーイベントのテーマと時間的近接性のために本質的に困難である。
我々は、新しいttf-itfスコアを用いて、時間的に頻繁なピークフレーズを抽出する、教師なしキーイベント検出フレームワークEvMineを開発した。
論文 参考訳(メタデータ) (2022-06-08T20:31:02Z) - PILED: An Identify-and-Localize Framework for Few-Shot Event Detection [79.66042333016478]
本研究では,事前学習した言語モデルから事象関連知識を引き出すために,クローゼプロンプトを用いた。
型固有のパラメータの数を最小化し、新しい型に対するイベント検出タスクに迅速に適応できるようにします。
論文 参考訳(メタデータ) (2022-02-15T18:01:39Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z) - Embed2Detect: Temporally Clustered Embedded Words for Event Detection in
Social Media [1.7205106391379026]
ワード埋め込みの採用により、Embed2Detectは強力なセマンティック機能をイベント検出に組み込むことができる。
以上の結果から,Embed2Detectは効率的かつ効率的なイベント検出が可能であることが示唆された。
論文 参考訳(メタデータ) (2020-06-10T15:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。