論文の概要: Growing Trees on Sounds: Assessing Strategies for End-to-End Dependency Parsing of Speech
- arxiv url: http://arxiv.org/abs/2406.12621v1
- Date: Tue, 18 Jun 2024 13:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 18:48:22.596785
- Title: Growing Trees on Sounds: Assessing Strategies for End-to-End Dependency Parsing of Speech
- Title(参考訳): 音に木が生える:音声の終端依存パーシングのための戦略の評価
- Authors: Adrien Pupier, Maximin Coavoux, Jérôme Goulian, Benjamin Lecouteux,
- Abstract要約: 音声解析における2つの解析パラダイムの性能評価を目的とした一連の実験について報告する。
我々はこの評価をフランス語の大きな木バンクで行い、現実的な自発的な会話を特徴とする。
その結果, (i) グラフに基づく手法は, (ii) パラメータが30%少ないにもかかわらず, (ii) 音声から直接解析することで, パイプライン手法よりも優れた結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 8.550564152063522
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Direct dependency parsing of the speech signal -- as opposed to parsing speech transcriptions -- has recently been proposed as a task (Pupier et al. 2022), as a way of incorporating prosodic information in the parsing system and bypassing the limitations of a pipeline approach that would consist of using first an Automatic Speech Recognition (ASR) system and then a syntactic parser. In this article, we report on a set of experiments aiming at assessing the performance of two parsing paradigms (graph-based parsing and sequence labeling based parsing) on speech parsing. We perform this evaluation on a large treebank of spoken French, featuring realistic spontaneous conversations. Our findings show that (i) the graph based approach obtain better results across the board (ii) parsing directly from speech outperforms a pipeline approach, despite having 30% fewer parameters.
- Abstract(参考訳): 音声信号の直接依存性解析は、最近、構文解析システムに韻律情報を導入し、最初の自動音声認識(ASR)システムと構文解析システムを使用するパイプラインアプローチの制限を回避し、タスクとして提案されている(Pupier et al 2022)。
本稿では,音声解析における2つの解析パラダイム(グラフベース解析とシーケンスラベリングに基づく解析)の性能評価を目的とした一連の実験について報告する。
我々はこの評価をフランス語の大きな木バンクで行い、現実的な自発的な会話を特徴とする。
以上の結果から
(i)グラフベースのアプローチは、ボード全体でより良い結果を得る
(ii) パラメータが30%少ないにもかかわらず, 音声から直接の解析はパイプラインアプローチより優れている。
関連論文リスト
- Textless Dependency Parsing by Labeled Sequence Prediction [18.32371054754222]
自動音声認識システムなしで音声表現を処理する「テキストレス」手法
提案手法は,木をラベル付きシーケンスとして表現し,音声信号から係り受け木を予測する。
本研究は,解析性能を高めるために,単語レベルの表現と文レベルの韻律を融合させることの重要性を強調した。
論文 参考訳(メタデータ) (2024-07-14T08:38:14Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - ESSumm: Extractive Speech Summarization from Untranscribed Meeting [7.309214379395552]
本稿では,音声から音声への直接要約のための新しいアーキテクチャであるESSummを提案する。
市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。
提案手法は,目的の要約長でキー情報をキャプチャする音声セグメントの最適シーケンスを自動的に予測する。
論文 参考訳(メタデータ) (2022-09-14T20:13:15Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - RST Parsing from Scratch [14.548146390081778]
本稿では、RST(Rhetorical Structure Theory)フレームワークにおいて、文書レベルの言論解析の新しいエンドツーエンドの定式化を導入する。
本フレームワークは,会話のセグメンテーションを前提条件として必要とせず,スクラッチからの談話解析を容易にする。
我々の統合構文解析モデルでは、ビームサーチを用いて、最高の木構造を高速な木々の空間を探索することでデコードする。
論文 参考訳(メタデータ) (2021-05-23T06:19:38Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - MEGA RST Discourse Treebanks with Structure and Nuclearity from Scalable
Distant Sentiment Supervision [30.615883375573432]
本稿では,感情アノテートされたデータセットから遠方からの監視を用いて,談話木バンクを自動的に生成する新しい手法を提案する。
提案手法は,効率的なビーム探索手法を用いて,任意の長さの文書に構造と核性を取り入れた木を生成する。
実験により、MEGA-DTツリーバンクでトレーニングされた談話が、ドメイン間パフォーマンスの有望な向上をもたらすことが示された。
論文 参考訳(メタデータ) (2020-11-05T18:22:38Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。