Fugu-MT 論文翻訳(概要): Unsupervised Speech Segmentation: A General Approach Using Speech Language Models

論文の概要: Unsupervised Speech Segmentation: A General Approach Using Speech Language Models

arxiv url: http://arxiv.org/abs/2501.03711v1
Date: Tue, 07 Jan 2025 11:32:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:03.025182
Title: Unsupervised Speech Segmentation: A General Approach Using Speech Language Models
Title（参考訳）: 教師なし音声セグメンテーション:言語モデルを用いた一般的なアプローチ
Authors: Avishai Elmakies, Omri Abend, Yossi Adi,
Abstract要約: 本稿では,これまで研究されてきた話者ダイアリゼーションに基づく音声に対する教師なしアプローチを提案する。いくつかの設定を考慮し,提案手法の有効性を実証的に実証した。提案手法は, 境界検出, セグメント純度, オーバーセグメンテーションに基づく評価基準よりも優れていることが示唆された。
参考スコア（独自算出の注目度）: 35.497690338358055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce an unsupervised approach for Speech Segmentation, which builds on previously researched approaches, e.g., Speaker Diarization, while being applicable to an inclusive set of acoustic-semantic distinctions, paving a path towards a general Unsupervised Speech Segmentation approach. Unlike traditional speech and audio segmentation, which mainly focuses on spectral changes in the input signal, e.g., phone segmentation, our approach tries to segment the spoken utterance into chunks with differing acoustic-semantic styles, focusing on acoustic-semantic information that does not translate well into text, e.g., emotion or speaker. While most Speech Segmentation tasks only handle one style change, e.g., emotion diarization, our approach tries to handle multiple acoustic-semantic style changes. Leveraging recent advances in Speech Language Models (SLMs), we propose a simple unsupervised method to segment a given speech utterance. We empirically demonstrate the effectiveness of the proposed approach by considering several setups. Results suggest that the proposed method is superior to the evaluated baselines on boundary detection, segment purity, and over-segmentation. Code is available at https://github.com/avishaiElmakies/unsupervised_speech_segmentation_using_slm.
Abstract（参考訳）: 本稿では,従来研究されてきた話者ダイアリゼーションに基づく音声セグメンテーションの非教師なしアプローチを導入するとともに,一般の教師なし音声セグメンテーションアプローチへの道を開いた。入力信号のスペクトル変化に主眼を置いている従来の音声や音声のセグメンテーションとは違って,本手法では音声の発声を音声・セグメンテーションのスタイルが異なるチャンクに分割し,テキストや感情,あるいは話者によく翻訳されない音声・セグメンテーションに重点を置いている。ほとんどの音声セグメンテーションタスクは感情ダイアリゼーションのような1つのスタイルの変更しか処理しないが、我々の手法は複数の音響・セマンティックなスタイル変更を処理しようとする。音声言語モデル(SLM)の最近の進歩を生かして、与えられた発話をセグメント化するための単純な教師なし手法を提案する。いくつかの設定を考慮し,提案手法の有効性を実証的に実証した。提案手法は, 境界検出, セグメント純度, オーバーセグメンテーションに基づく評価基準よりも優れていることが示唆された。コードはhttps://github.com/avishaiElmakies/unsupervised_speech_segmentation_using_slmで公開されている。

関連論文リスト

Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。 LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文参考訳（メタデータ） (2024-07-11T01:57:08Z)
Audio-Visual Neural Syntax Acquisition [91.14892278795892]
視覚的音声からの句構造誘導について検討する。本稿では,音声を聴いたり,画像を見たりすることでフレーズ構造を学習するAV-NSL(Audio-Visual Neural Syntax Learner)について述べる。
論文参考訳（メタデータ） (2023-10-11T16:54:57Z)
Learning Speech Representation From Contrastive Token-Acoustic Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文参考訳（メタデータ） (2023-09-01T12:35:43Z)
Smart Speech Segmentation using Acousto-Linguistic Features with look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文参考訳（メタデータ） (2022-10-26T03:36:31Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
Speech Segmentation Optimization using Segmented Bilingual Speech Corpus for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文参考訳（メタデータ） (2022-03-29T12:26:56Z)
On the Difficulty of Segmenting Words with Attention [32.97060026226872]
しかし、モノリンガルデータでさえこのアプローチは脆弱であることを示す。異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムの実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。
論文参考訳（メタデータ） (2021-09-21T11:37:08Z)
Segmental Contrastive Predictive Coding for Unsupervised Word Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文参考訳（メタデータ） (2021-06-03T23:12:05Z)
Unsupervised Pattern Discovery from Thematic Speech Archives Based on Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文参考訳（メタデータ） (2020-11-03T20:06:48Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。