論文の概要: Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides
- arxiv url: http://arxiv.org/abs/2504.15066v1
- Date: Mon, 21 Apr 2025 12:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 15:08:03.671238
- Title: Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides
- Title(参考訳): Chinese-LiPS:リップリーディングとプレゼンテーションスライドを備えた中国語音声視覚音声認識データセット
- Authors: Jinghua Zhao, Yuhang Jia, Shiyao Wang, Jiaming Zhou, Hui Wang, Yong Qin,
- Abstract要約: 我々は,100時間単位の音声,ビデオ,対応する手書き書き起こしを含む多モーダルな中国語AVSRデータセット,中国語-LiPSをリリースする。
AVSRタスクの視覚的モダリティとしてリップリード情報とプレゼンテーションスライド情報の両方を活用する,シンプルで効果的なパイプラインLiPS-AVSRを開発した。
実験の結果, 唇読解とプレゼンテーションスライド情報により, ASRの性能は約8%, 25%向上した。
- 参考スコア(独自算出の注目度): 12.148223089382816
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Incorporating visual modalities to assist Automatic Speech Recognition (ASR) tasks has led to significant improvements. However, existing Audio-Visual Speech Recognition (AVSR) datasets and methods typically rely solely on lip-reading information or speaking contextual video, neglecting the potential of combining these different valuable visual cues within the speaking context. In this paper, we release a multimodal Chinese AVSR dataset, Chinese-LiPS, comprising 100 hours of speech, video, and corresponding manual transcription, with the visual modality encompassing both lip-reading information and the presentation slides used by the speaker. Based on Chinese-LiPS, we develop a simple yet effective pipeline, LiPS-AVSR, which leverages both lip-reading and presentation slide information as visual modalities for AVSR tasks. Experiments show that lip-reading and presentation slide information improve ASR performance by approximately 8\% and 25\%, respectively, with a combined performance improvement of about 35\%. The dataset is available at https://kiri0824.github.io/Chinese-LiPS/
- Abstract(参考訳): 自動音声認識(ASR)タスクを補助するための視覚的モダリティの導入は、大幅な改善をもたらした。
しかし、既存のAVSR(Audio-Visual Speech Recognition)データセットや手法は、通常、口頭で読む情報や会話の文脈ビデオにのみ依存し、これらの異なる価値ある視覚的手がかりを話し言葉の文脈内で組み合わせる可能性を無視する。
本稿では,100時間の音声,ビデオ,およびそれに対応する手話書き起こしを含む中国語-LiPSのマルチモーダルなAVSRデータセットを,唇読取情報と話者が使用するプレゼンテーションスライドの両方を含む視覚的モダリティとしてリリースする。
中国語-LiPSに基づく簡単なパイプラインLiPS-AVSRを開発し,AVSRタスクの視覚的モダリティとして唇読解とプレゼンテーションスライド情報を活用する。
実験の結果, 唇読解とプレゼンテーションスライド情報により, ASRの性能が約8\%, 25\%向上し, 合計で約35\%向上した。
データセットはhttps://kiri0824.github.io/ Chinese-LiPS/で公開されている。
関連論文リスト
- Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - XLAVS-R: Cross-Lingual Audio-Visual Speech Representation Learning for Noise-Robust Speech Perception [62.660135152900615]
音声認識と翻訳システムではノイズの多い入力が不十分である。
XLAVS-Rは、雑音による音声認識と翻訳のための言語間音声・視覚音声表現モデルである。
論文 参考訳(メタデータ) (2024-03-21T13:52:17Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech Recognition [20.476882754923047]
音声視覚音声認識(AVSR)は自動音声認識(ASR)のマルチモーダル拡張である
本稿では,学術論文説明ビデオを用いたAVSRデータセットであるSlideAVSRを構築する。
論文 参考訳(メタデータ) (2024-01-18T07:19:10Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z) - Sub-word Level Lip Reading With Visual Attention [88.89348882036512]
我々は、リップリーディングで遭遇するユニークな課題に注目し、調整されたソリューションを提案する。
公開データセット上でのトレーニングにおいて,挑戦的なLSS2とLSS3ベンチマークの最先端結果を得る。
我々の最良のモデルはLRS2データセットで22.6%のワードエラー率を達成する。
論文 参考訳(メタデータ) (2021-10-14T17:59:57Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。