Fugu-MT 論文翻訳(概要): Textless Dependency Parsing by Labeled Sequence Prediction

論文の概要: Textless Dependency Parsing by Labeled Sequence Prediction

arxiv url: http://arxiv.org/abs/2407.10118v1
Date: Sun, 14 Jul 2024 08:38:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 19:28:46.600309
Title: Textless Dependency Parsing by Labeled Sequence Prediction
Title（参考訳）: ラベル付きシーケンス予測によるテキストレス依存構文解析
Authors: Shunsuke Kando, Yusuke Miyao, Jason Naradowsky, Shinnosuke Takamichi,
Abstract要約: 自動音声認識システムなしで音声表現を処理する「テキストレス」手法提案手法は,木をラベル付きシーケンスとして表現し,音声信号から係り受け木を予測する。本研究は,解析性能を高めるために,単語レベルの表現と文レベルの韻律を融合させることの重要性を強調した。
参考スコア（独自算出の注目度）: 18.32371054754222
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional spoken language processing involves cascading an automatic speech recognition (ASR) system into text processing models. In contrast, "textless" methods process speech representations without ASR systems, enabling the direct use of acoustic speech features. Although their effectiveness is shown in capturing acoustic features, it is unclear in capturing lexical knowledge. This paper proposes a textless method for dependency parsing, examining its effectiveness and limitations. Our proposed method predicts a dependency tree from a speech signal without transcribing, representing the tree as a labeled sequence. scading method outperforms the textless method in overall parsing accuracy, the latter excels in instances with important acoustic features. Our findings highlight the importance of fusing word-level representations and sentence-level prosody for enhanced parsing performance. The code and models are made publicly available: https://github.com/mynlp/SpeechParser.
Abstract（参考訳）: 従来の音声言語処理では、自動音声認識(ASR)システムをテキスト処理モデルにカスケードする。対照的に、"textless"メソッドはASRシステムなしで音声表現を処理し、音響音声特徴を直接使用することができる。それらの効果は音響的特徴を捉える際に示されるが、語彙的知識を捉える際には不明確である。本稿では,依存性解析のためのテキストレス手法を提案し,その有効性と限界について検討する。提案手法は,木をラベル付きシーケンスとして表現し,音声信号から係り受け木を予測する。スカディング法は、テキストレス法を全体的な解析精度で上回り、後者は重要な音響特性を持つインスタンスで優れる。本研究は,解析性能を高めるために,単語レベルの表現と文レベルの韻律を融合させることの重要性を強調した。コードとモデルは、https://github.com/mynlp/SpeechParser.comで公開されている。

関連論文リスト

Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation [4.314729314139958]
音声と韻律のラベルを与えられた音声と音声のペアにアノテートする方法を提案する。音韻ラベリングにおける誤りの訂正に辞書事前知識を用いた復号方式を用いる。提案手法を用いてアノテートしたラベルで訓練したTTSモデルにより合成された音声の自然性は,手動のアノテーションで訓練したモデルに匹敵することを示す。
論文参考訳（メタデータ） (2025-06-09T11:10:24Z)
dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文参考訳（メタデータ） (2024-07-22T17:51:53Z)
Growing Trees on Sounds: Assessing Strategies for End-to-End Dependency Parsing of Speech [8.550564152063522]
音声解析における2つの解析パラダイムの性能評価を目的とした一連の実験について報告する。我々はこの評価をフランス語の大きな木バンクで行い、現実的な自発的な会話を特徴とする。その結果, (i) グラフに基づく手法は, (ii) パラメータが30%少ないにもかかわらず, (ii) 音声から直接解析することで, パイプライン手法よりも優れた結果が得られることがわかった。
論文参考訳（メタデータ） (2024-06-18T13:46:10Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文参考訳（メタデータ） (2023-07-03T06:55:03Z)
Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文参考訳（メタデータ） (2023-04-24T10:15:58Z)
Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文参考訳（メタデータ） (2022-11-15T18:44:28Z)
ESSumm: Extractive Speech Summarization from Untranscribed Meeting [7.309214379395552]
本稿では,音声から音声への直接要約のための新しいアーキテクチャであるESSummを提案する。市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。提案手法は,目的の要約長でキー情報をキャプチャする音声セグメントの最適シーケンスを自動的に予測する。
論文参考訳（メタデータ） (2022-09-14T20:13:15Z)
Automatic Prosody Annotation with Pre-Trained Text-Speech Model [48.47706377700962]
本稿では,事前学習した音声エンコーダを用いたニューラルテキスト音声モデルを用いて,テキストオーディオデータから韻律境界ラベルを自動的に抽出する。このモデルは、テキストデータと音声データに個別に事前訓練され、TTSデータを三重奏形式(音声、テキスト、韻律)で微調整する。
論文参考訳（メタデータ） (2022-06-16T06:54:16Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。 ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文参考訳（メタデータ） (2021-02-15T07:20:06Z)
Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文参考訳（メタデータ） (2020-01-30T18:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。