論文の概要: Beyond Voice Activity Detection: Hybrid Audio Segmentation for Direct
Speech Translation
- arxiv url: http://arxiv.org/abs/2104.11710v1
- Date: Fri, 23 Apr 2021 16:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:00:15.009339
- Title: Beyond Voice Activity Detection: Hybrid Audio Segmentation for Direct
Speech Translation
- Title(参考訳): 音声活動検出を超えて:直接音声翻訳のためのハイブリッド音声セグメント
- Authors: Marco Gaido, Matteo Negri, Mauro Cettolo, Marco Turchi
- Abstract要約: 提案手法は,従来のVAD手法と最適手動分割のギャップを少なくとも30%減らし,他の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.151063458445826
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The audio segmentation mismatch between training data and those seen at
run-time is a major problem in direct speech translation. Indeed, while systems
are usually trained on manually segmented corpora, in real use cases they are
often presented with continuous audio requiring automatic (and sub-optimal)
segmentation. After comparing existing techniques (VAD-based, fixed-length and
hybrid segmentation methods), in this paper we propose enhanced hybrid
solutions to produce better results without sacrificing latency. Through
experiments on different domains and language pairs, we show that our methods
outperform all the other techniques, reducing by at least 30% the gap between
the traditional VAD-based approach and optimal manual segmentation.
- Abstract(参考訳): 直接音声翻訳では、トレーニングデータと実行時に見る音声のセグメンテーションミスマッチが大きな問題となっている。
実際、システムは通常手動でセグメンテーションされたコーパスで訓練されるが、実例では、自動(および準最適)セグメンテーションを必要とする継続的オーディオがしばしば提示される。
本稿では,既存の手法(vadベース,固定長,ハイブリッドセグメンテーション法)を比較し,遅延を犠牲にすることなくよりよい結果を得るためのハイブリッドソリューションを提案する。
異なるドメインと言語ペアの実験を通じて、従来のvadベースのアプローチと最適な手動セグメンテーションのギャップを少なくとも30%削減し、我々の手法が他の手法よりも優れていることを示す。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Efficient Temporal Action Segmentation via Boundary-aware Query Voting [51.92693641176378]
BaFormerは境界対応のTransformerネットワークで、各ビデオセグメントをインスタンストークンとしてトークン化する。
BaFormerは実行時間の6%しか利用せず、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-05-25T00:44:13Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。
機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文 参考訳(メタデータ) (2022-10-26T03:36:31Z) - Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text
Translation [10.799623536095226]
完全な発話が話される前に、モデルが翻訳を開始する必要があるオンライン音声言語翻訳では、ほとんどの以前の研究はセグメント化の問題を無視している。
オフライン・オンライン両方のセグメンテーションにおけるセグメンテーションエラーやセグメンテーション戦略に対するモデルの堅牢性を改善するための様々な手法を比較した。
5つの異なる言語対についての知見から, 簡単な固定ウィンドウ音声セグメント化が, 適切な条件で驚くほど良好に動作できることが示唆された。
論文 参考訳(メタデータ) (2022-10-24T16:06:33Z) - Speech Segmentation Optimization using Segmented Bilingual Speech Corpus
for End-to-end Speech Translation [16.630616128169372]
セグメント化バイリンガル音声コーパスを用いて訓練された二分分類モデルを用いた音声セグメント化手法を提案する。
実験の結果,提案手法は従来のセグメンテーション法よりもカスケードおよびエンド・ツー・エンドのSTシステムに適していることがわかった。
論文 参考訳(メタデータ) (2022-03-29T12:26:56Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - SHAS: Approaching optimal Segmentation for End-to-End Speech Translation [0.0]
音声翻訳モデルは、TEDトークのような短いセグメントに分けられる長いオーディオを直接処理することはできない。
本稿では,手動分割音声コーパスから最適なセグメンテーションを効果的に学習する手法であるSupervised Hybrid Audio (SHAS)を提案する。
MuST-CとmTEDxの実験では、SHASは手動セグメンテーションのBLEUスコアの95-98%を維持している。
論文 参考訳(メタデータ) (2022-02-09T23:55:25Z) - Dealing with training and test segmentation mismatch: FBK@IWSLT2021 [13.89298686257514]
本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。
英語の音声データをドイツ語のテキストに変換するために訓練されたトランスフォーマーベースのアーキテクチャである。
訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
論文 参考訳(メタデータ) (2021-06-23T18:11:32Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。