論文の概要: Deep Visual Forced Alignment: Learning to Align Transcription with
Talking Face Video
- arxiv url: http://arxiv.org/abs/2303.08670v1
- Date: Mon, 27 Feb 2023 02:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-19 11:39:40.189932
- Title: Deep Visual Forced Alignment: Learning to Align Transcription with
Talking Face Video
- Title(参考訳): deep visual forced alignment: 書き起こしとトークフェイスビデオの連携を学習する
- Authors: Minsu Kim, Chae Won Kim, Yong Man Ro
- Abstract要約: 強制アライメント技術は、入力された音声音声がノイズ破壊されたり、アクセスできない場合に、アライメントに失敗する可能性がある。
ディープ・ビジュアル・フォースド・アライメント(DVFA)は、音声音声にアクセスすることなく、入力された書き起こしを音声音声に合わせることができる。
- 参考スコア(独自算出の注目度): 32.65865343643458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Forced alignment refers to a technology that time-aligns a given
transcription with a corresponding speech. However, as the forced alignment
technologies have developed using speech audio, they might fail in alignment
when the input speech audio is noise-corrupted or is not accessible. We focus
on that there is another component that the speech can be inferred from, the
speech video (i.e., talking face video). Since the drawbacks of audio-based
forced alignment can be complemented using the visual information when the
audio signal is under poor condition, we try to develop a novel video-based
forced alignment method. However, different from audio forced alignment, it is
challenging to develop a reliable visual forced alignment technology for the
following two reasons: 1) Visual Speech Recognition (VSR) has a much lower
performance compared to audio-based Automatic Speech Recognition (ASR), and 2)
the translation from text to video is not reliable, so the method typically
used for building audio forced alignment cannot be utilized in developing
visual forced alignment. In order to alleviate these challenges, in this paper,
we propose a new method that is appropriate for visual forced alignment, namely
Deep Visual Forced Alignment (DVFA). The proposed DVFA can align the input
transcription (i.e., sentence) with the talking face video without accessing
the speech audio. Moreover, by augmenting the alignment task with anomaly case
detection, DVFA can detect mismatches between the input transcription and the
input video while performing the alignment. Therefore, we can robustly align
the text with the talking face video even if there exist error words in the
text. Through extensive experiments, we show the effectiveness of the proposed
DVFA not only in the alignment task but also in interpreting the outputs of VSR
models.
- Abstract(参考訳): 強制アライメントとは、与えられた転写を対応する音声でタイムアライメントする技術である。
しかし、音声音声を用いた強制アライメント技術が開発されているため、入力音声音声がノイズ補間されたり、アクセスできない場合、アライメントに失敗する可能性がある。
我々は、音声から推論できる別の要素、すなわち音声ビデオ(つまり、話し顔ビデオ)があることに焦点を当てる。
音声信号が不十分な場合、映像情報を用いて音声ベースの強制アライメントの欠点を補うことができるため、新たな映像ベースの強制アライメント手法の開発を試みる。
しかし、オーディオ強制アライメントと異なり、以下の2つの理由から、信頼性の高い視覚強制アライメント技術の開発が困難である。
1)視覚音声認識(VSR)は、音声に基づく自動音声認識(ASR)に比べてはるかに低性能である。
2)テキストから映像への翻訳は信頼できないため,音声強制アライメント構築に一般的に用いられる手法は,視覚強制アライメントの開発に利用できない。
本稿では,これらの課題を軽減するために,視覚的強制アライメント,すなわちDeep Visual Forced Alignment(DVFA)に適した新しい手法を提案する。
提案したDVFAは、音声音声にアクセスすることなく、入力書き起こし(文)と話し顔ビデオとを一致させることができる。
さらに、異常ケース検出によるアライメントタスクを増強することにより、DVFAはアライメントを実行しながら、入力文字と入力ビデオのミスマッチを検出することができる。
したがって、テキストに誤り語があっても、テキストを会話面ビデオに頑健に整列させることができる。
広範囲な実験を通して,提案したDVFAの有効性をアライメントタスクだけでなく,VSRモデルの出力を解釈する上でも示す。
関連論文リスト
- SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model [35.60147467774199]
SAV-SEは、同期ビデオからのリッチな文脈情報を、ノイズの種類を示す補助的手がかりとして使うための最初の提案である。
我々の知る限り、これは、音声強調性能を向上させるために、同期ビデオからリッチな文脈情報を補助的手がかりとして使用する最初の提案である。
論文 参考訳(メタデータ) (2024-11-12T12:23:41Z) - Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation [58.72068260933836]
システムの入力と出力はマルチモーダル(音声と視覚)である
私たちは、自分の主要言語を利用することで、仮想ミーティングで世界中の個人とリアルタイムな会話を行うことができます。
音声モダリティのみを翻訳する音声音声合成(A2A)とは対照的に,提案したAV2AVは音声・視覚音声を直接翻訳する。
論文 参考訳(メタデータ) (2023-12-05T05:36:44Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment [30.38594416942543]
本稿では,遅延拡散モデル,すなわちDiffAVAに基づく視覚アライメントを用いた,新規でパーソナライズされたテキスト・音声生成手法を提案する。
我々のDiffAVAは、ビデオ特徴から時間情報を集約するマルチヘッドアテンショントランスフォーマーと、テキスト埋め込みで時間的視覚表現を融合するデュアルマルチモーダル残差ネットワークを活用している。
AudioCapsデータセットの実験結果から、提案したDiffAVAは、視覚的に整列したテキスト・オーディオ生成において、競合する性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-22T10:37:27Z) - Phone-to-audio alignment without text: A Semi-supervised Approach [8.751201799254323]
テキストに依存しない2つのWav2Vec2ベースのモデルを導入する。
半教師付きモデルであるWav2Vec2-FSは、コントラスト学習とフォワード和損失によって直接音声のアライメントを学習する。
他のモデルであるWav2Vec2-FCは、強制整列ラベルに基づいて訓練されたフレーム分類モデルである。
論文 参考訳(メタデータ) (2021-10-08T03:30:24Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。