論文の概要: MeetDot: Videoconferencing with Live Translation Captions
- arxiv url: http://arxiv.org/abs/2109.09577v1
- Date: Mon, 20 Sep 2021 14:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 22:06:38.917162
- Title: MeetDot: Videoconferencing with Live Translation Captions
- Title(参考訳): MeetDot:ライブ翻訳機能付きビデオ会議
- Authors: Arkady Arkhangorodsky, Christopher Chu, Scot Fang, Yiqi Huang, Denglin
Jiang, Ajay Nagesh, Boliang Zhang, Kevin Knight
- Abstract要約: 本稿では,ビデオ会議システムであるMeetDotについて紹介する。
本システムでは、4言語での音声とキャプションをサポートし、自動音声認識(ASR)と機械翻訳(MT)をカスケードで組み合わせる。
我々は,スムーズなスクロールキャプションやキャプションフリックの削減など,ユーザエクスペリエンスの向上と認知負荷の低減のために,いくつかの機能を実装した。
- 参考スコア(独自算出の注目度): 18.60812558978417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MeetDot, a videoconferencing system with live translation captions
overlaid on screen. The system aims to facilitate conversation between people
who speak different languages, thereby reducing communication barriers between
multilingual participants. Currently, our system supports speech and captions
in 4 languages and combines automatic speech recognition (ASR) and machine
translation (MT) in a cascade. We use the re-translation strategy to translate
the streamed speech, resulting in caption flicker. Additionally, our system has
very strict latency requirements to have acceptable call quality. We implement
several features to enhance user experience and reduce their cognitive load,
such as smooth scrolling captions and reducing caption flicker. The modular
architecture allows us to integrate different ASR and MT services in our
backend. Our system provides an integrated evaluation suite to optimize key
intrinsic evaluation metrics such as accuracy, latency and erasure. Finally, we
present an innovative cross-lingual word-guessing game as an extrinsic
evaluation metric to measure end-to-end system performance. We plan to make our
system open-source for research purposes.
- Abstract(参考訳): 我々は,ライブ翻訳キャプションを画面上にオーバーレイするビデオ会議システムであるmeetdotを提案する。
本システムは,多言語話者間のコミュニケーション障壁を低減することを目的としている。
現在,本システムは4言語で音声とキャプションをサポートし,自動音声認識(ASR)と機械翻訳(MT)をカスケードで組み合わせている。
ストリーム音声の翻訳には再翻訳戦略を用い,キャプションフリック化を実現した。
さらに,システムには非常に厳格なレイテンシ要件があり,呼び出し品質が許容できる。
我々は,スムーズなスクロールキャプションやキャプションフリックの削減など,ユーザエクスペリエンスの向上と認知負荷の低減のために,いくつかの機能を実装した。
モジュールアーキテクチャにより、バックエンドにさまざまなasrとmtサービスを統合できます。
本システムでは,精度,レイテンシ,消去といった重要な固有評価指標を最適化する統合評価スイートを提供する。
最後に,エンド・ツー・エンドのシステム性能を計測するための超臨場感評価指標として,革新的な言語間対話ゲームを提案する。
我々は研究目的でシステムをオープンソース化する予定です。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - An Adversarial Learning based Multi-Step Spoken Language Understanding
System through Human-Computer Interaction [70.25183730482915]
対戦型学習に基づく多段階音声言語理解システムを提案する。
我々は,F1の観点で解析性能を少なくとも2.5%向上させることを実証した。
論文 参考訳(メタデータ) (2021-06-06T03:46:53Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Dynamic Masking for Improved Stability in Spoken Language Translation [8.591381243212712]
翻訳品質を犠牲にすることなく、マスクが遅延フリックのトレードオフを改善する方法を示す。
考えられる解決策は、MTシステムの出力に固定遅延(mask)を追加することである。
このマスクを動的に設定する方法を示し、翻訳品質を犠牲にすることなくレイテンシ・フリックストレードオフを改善する。
論文 参考訳(メタデータ) (2020-05-30T12:23:10Z) - Towards Automatic Face-to-Face Translation [30.841020484914527]
「顔から顔への翻訳」は、言語Aで話す人の映像をリアルな唇同期を持つ対象言語Bに翻訳することができる。
我々は,音声と言語から既存の複数のモジュールをまとめて,音声から音声への翻訳を行うシステムを構築した。
そこで我々は,翻訳音声から現実的な発話顔を生成するための新しいビジュアルモジュールLipGANを組み込むことで,「顔から顔への翻訳」を目指す。
論文 参考訳(メタデータ) (2020-03-01T06:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。