論文の概要: Towards Event Extraction from Speech with Contextual Clues
- arxiv url: http://arxiv.org/abs/2401.15385v1
- Date: Sat, 27 Jan 2024 11:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:24:17.857725
- Title: Towards Event Extraction from Speech with Contextual Clues
- Title(参考訳): 文脈付き音声からのイベント抽出に向けて
- Authors: Jingqi Kang, Tongtong Wu, Jinming Zhao, Guitao Wang, Guilin Qi,
Yuan-Fang Li, Gholamreza Haffari
- Abstract要約: 本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。
テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。
我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
- 参考スコア(独自算出の注目度): 61.164413398231254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While text-based event extraction has been an active research area and has
seen successful application in many domains, extracting semantic events from
speech directly is an under-explored problem. In this paper, we introduce the
Speech Event Extraction (SpeechEE) task and construct three synthetic training
sets and one human-spoken test set. Compared to event extraction from text,
SpeechEE poses greater challenges mainly due to complex speech signals that are
continuous and have no word boundaries. Additionally, unlike perceptible sound
events, semantic events are more subtle and require a deeper understanding. To
tackle these challenges, we introduce a sequence-to-structure generation
paradigm that can produce events from speech signals in an end-to-end manner,
together with a conditioned generation method that utilizes speech recognition
transcripts as the contextual clue. We further propose to represent events with
a flat format to make outputs more natural language-like. Our experimental
results show that our method brings significant improvements on all datasets,
achieving a maximum F1 gain of 10.7%. The code and datasets are released on
https://github.com/jodie-kang/SpeechEE.
- Abstract(参考訳): テキストベースのイベント抽出は活発な研究分野であり、多くの領域で応用されているが、音声から直接意味的イベントを抽出することは未検討の問題である。
本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築する。
テキストからのイベント抽出と比較して、発話者は、連続的で単語境界を持たない複雑な音声信号によって、大きな課題を生じる。
さらに、知覚可能なサウンドイベントとは異なり、セマンティックイベントはより微妙であり、深い理解を必要とする。
これらの課題に対処するために,音声信号からエンドツーエンドでイベントを生成できるシーケンス・ツー・ストラクチャー生成パラダイムと,音声認識書き起こしを文脈手がかりとして利用する条件付き生成手法を提案する。
さらに,イベントをフラットな形式で表現し,出力を自然言語に近いものにすることを提案する。
実験の結果,本手法は全データセットに大幅な改善をもたらし,最大10.7%のF1ゲインを達成した。
コードとデータセットはhttps://github.com/jodie-kang/speecheeでリリースされている。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - GRASS: Unified Generation Model for Speech-to-Semantic Tasks [7.044414457214718]
本稿では,音声データに対するタスク関連プロンプトに条件付きターゲットテキストを生成する統合エンドツーエンド(E2E)フレームワークを提案する。
提案モデルでは, 実体認識, 音声感情分析, 音声質問応答などを含む多くのベンチマークにおいて, 最先端のSOTA(State-of-the-art)結果が得られた。
音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。
論文 参考訳(メタデータ) (2023-09-06T06:44:26Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Rich Event Modeling for Script Event Prediction [60.67635412135682]
スクリプトイベント予測のためのリッチイベント予測(REP)フレームワークを提案する。
REPは、テキストからそのような情報を抽出するイベント抽出器を含む。
予測器の中核となるコンポーネントは、任意の数の引数を柔軟に扱う変換器ベースのイベントエンコーダである。
論文 参考訳(メタデータ) (2022-12-16T05:17:59Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。