Fugu-MT 論文翻訳(概要): Towards Event Extraction from Speech with Contextual Clues

論文の概要: Towards Event Extraction from Speech with Contextual Clues

arxiv url: http://arxiv.org/abs/2401.15385v1
Date: Sat, 27 Jan 2024 11:07:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 18:24:17.857725
Title: Towards Event Extraction from Speech with Contextual Clues
Title（参考訳）: 文脈付き音声からのイベント抽出に向けて
Authors: Jingqi Kang, Tongtong Wu, Jinming Zhao, Guitao Wang, Guilin Qi, Yuan-Fang Li, Gholamreza Haffari
Abstract要約: 本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
参考スコア（独自算出の注目度）: 61.164413398231254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While text-based event extraction has been an active research area and has seen successful application in many domains, extracting semantic events from speech directly is an under-explored problem. In this paper, we introduce the Speech Event Extraction (SpeechEE) task and construct three synthetic training sets and one human-spoken test set. Compared to event extraction from text, SpeechEE poses greater challenges mainly due to complex speech signals that are continuous and have no word boundaries. Additionally, unlike perceptible sound events, semantic events are more subtle and require a deeper understanding. To tackle these challenges, we introduce a sequence-to-structure generation paradigm that can produce events from speech signals in an end-to-end manner, together with a conditioned generation method that utilizes speech recognition transcripts as the contextual clue. We further propose to represent events with a flat format to make outputs more natural language-like. Our experimental results show that our method brings significant improvements on all datasets, achieving a maximum F1 gain of 10.7%. The code and datasets are released on https://github.com/jodie-kang/SpeechEE.
Abstract（参考訳）: テキストベースのイベント抽出は活発な研究分野であり、多くの領域で応用されているが、音声から直接意味的イベントを抽出することは未検討の問題である。本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築する。テキストからのイベント抽出と比較して、発話者は、連続的で単語境界を持たない複雑な音声信号によって、大きな課題を生じる。さらに、知覚可能なサウンドイベントとは異なり、セマンティックイベントはより微妙であり、深い理解を必要とする。これらの課題に対処するために,音声信号からエンドツーエンドでイベントを生成できるシーケンス・ツー・ストラクチャー生成パラダイムと,音声認識書き起こしを文脈手がかりとして利用する条件付き生成手法を提案する。さらに,イベントをフラットな形式で表現し,出力を自然言語に近いものにすることを提案する。実験の結果,本手法は全データセットに大幅な改善をもたらし,最大10.7%のF1ゲインを達成した。コードとデータセットはhttps://github.com/jodie-kang/speecheeでリリースされている。

関連論文リスト

OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching [3.05024318465243]
OZSpeechは1ステップのサンプリングで最適な輸送条件流を探索する最初のTS法である。提案手法は,各音声属性の正確なモデリングを可能にするために,トークン形式における音声の非交叉分解成分を演算する。実験の結果,提案手法は,コンテンツ精度,自然性,韻律生成,話者スタイルの保存において,既存の手法よりも有望な性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-19T07:31:55Z)
Contextual Speech Extraction: Leveraging Textual History as an Implicit Cue for Target Speech Extraction [50.630431647192054]
本稿では,ターゲット音声抽出(TSE)の新しい手法について検討する。対象の音声を抽出するためには、テキストの文脈にのみ依存する。 3つのCSEモデルを示し、その性能を3つのデータセットで分析する。
論文参考訳（メタデータ） (2025-03-11T18:26:10Z)
InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training [23.330297074014315]
本稿では,Interleaved Speech-Text Representation Pre-trainingの略であるInSerterという,シンプルでスケーラブルなトレーニング手法を提案する。 InSerterは、大規模な教師なし音声テキストシーケンスを事前訓練するために設計されており、テキストから音声への変換を用いて、広範テキストコーパスのランダムに選択されたセグメントから音声を合成する。提案したInSerterは、SpeechInstructBenchにおけるSOTA性能を実現し、多様な音声処理タスクにおいて、優れた、あるいは競争的な結果を示す。
論文参考訳（メタデータ） (2025-03-04T16:34:14Z)
Enhancing Event Extraction from Short Stories through Contextualized Prompts [2.7670701972493568]
本稿では,実際の出来事に注釈を付けた1000編の短編集集「textttVrittanta-EN」について述べる。我々の目的は、短い物語の文脈における出来事の複雑な考えを明らかにすることである。本報告では,テクスタイスに分類したイベント参照とそのカテゴリのアノテートに関する新しいガイドラインについて述べる。
論文参考訳（メタデータ） (2024-12-14T08:28:52Z)
Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文参考訳（メタデータ） (2024-11-26T17:19:09Z)
Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。本稿では,近年のSpeechLM構築手法について概観する。
論文参考訳（メタデータ） (2024-10-01T21:48:12Z)
Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文参考訳（メタデータ） (2024-04-20T06:32:00Z)
Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文参考訳（メタデータ） (2023-10-09T17:59:21Z)
GRASS: Unified Generation Model for Speech-to-Semantic Tasks [7.044414457214718]
本稿では,音声データに対するタスク関連プロンプトに条件付きターゲットテキストを生成する統合エンドツーエンド(E2E)フレームワークを提案する。提案モデルでは, 実体認識, 音声感情分析, 音声質問応答などを含む多くのベンチマークにおいて, 最先端のSOTA(State-of-the-art)結果が得られた。音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。
論文参考訳（メタデータ） (2023-09-06T06:44:26Z)
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文参考訳（メタデータ） (2023-03-11T11:00:16Z)
Rich Event Modeling for Script Event Prediction [60.67635412135682]
スクリプトイベント予測のためのリッチイベント予測(REP)フレームワークを提案する。 REPは、テキストからそのような情報を抽出するイベント抽出器を含む。予測器の中核となるコンポーネントは、任意の数の引数を柔軟に扱う変換器ベースのイベントエンコーダである。
論文参考訳（メタデータ） (2022-12-16T05:17:59Z)
token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文参考訳（メタデータ） (2022-10-30T06:38:19Z)
SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文参考訳（メタデータ） (2022-09-30T09:12:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。