論文の概要: SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech
Recognition
- arxiv url: http://arxiv.org/abs/2401.09759v1
- Date: Thu, 18 Jan 2024 07:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:47:55.627357
- Title: SlideAVSR: A Dataset of Paper Explanation Videos for Audio-Visual Speech
Recognition
- Title(参考訳): SlideAVSR: 音声認識のための論文解説ビデオのデータセット
- Authors: Hao Wang and Shuhei Kurita and Shuichiro Shimizu and Daisuke Kawahara
- Abstract要約: 音声視覚音声認識(AVSR)は自動音声認識(ASR)のマルチモーダル拡張である
本稿では,学術論文説明ビデオを用いたAVSRデータセットであるSlideAVSRを構築する。
- 参考スコア(独自算出の注目度): 22.369523360526262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual speech recognition (AVSR) is a multimodal extension of automatic
speech recognition (ASR), using video as a complement to audio. In AVSR,
considerable efforts have been directed at datasets for facial features such as
lip-readings, while they often fall short in evaluating the image comprehension
capabilities in broader contexts. In this paper, we construct SlideAVSR, an
AVSR dataset using scientific paper explanation videos. SlideAVSR provides a
new benchmark where models transcribe speech utterances with texts on the
slides on the presentation recordings. As technical terminologies that are
frequent in paper explanations are notoriously challenging to transcribe
without reference texts, our SlideAVSR dataset spotlights a new aspect of AVSR
problems. As a simple yet effective baseline, we propose DocWhisper, an AVSR
model that can refer to textual information from slides, and confirm its
effectiveness on SlideAVSR.
- Abstract(参考訳): AVSR(Audio-visual speech Recognition)は、音声の補完としてビデオを使用する自動音声認識(ASR)のマルチモーダル拡張である。
avsrでは、リップリードなどの顔特徴のデータセットにかなりの努力が向けられているが、広い文脈での画像理解能力の評価には不足していることが多い。
本稿では,学術論文説明ビデオを用いたAVSRデータセットであるSlideAVSRを構築する。
SlideAVSRは、プレゼンテーション記録上のスライド上のテキストでモデルが音声を転写する新しいベンチマークを提供する。
論文の説明で頻繁に見られる技術的用語は、参照テキストなしでは書き起こしが難しいことで悪名高いため、SlideAVSRデータセットはAVSR問題の新たな側面を浮き彫りにしている。
簡易かつ効果的なベースラインとして,スライドからのテキスト情報を参照可能なavsrモデルであるdocwhisperを提案し,slideavsr上での有効性を確認する。
関連論文リスト
- VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models [21.85677682584916]
投機的音声認識(SSR)
本稿では、RNN-Transducer-based ASRシステムと音声処理言語モデル(LM)を組み合わせたSSRモデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:52:55Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Weakly Supervised Construction of ASR Systems with Massive Video Data [18.5050375783871]
本稿では,大容量ビデオデータを用いたASRシステム構築のための弱教師付きフレームワークを提案する。
光文字認識(OCR)に基づく映像から高音質音声をテキストに整合して抽出する効果的な手法を提案する。
本フレームワークは,マンダリン音声認識のための6つの公開データセットに対して,最先端の結果を容易に生成することができる。
論文 参考訳(メタデータ) (2020-08-04T03:11:32Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network
Language Model [26.78064626111014]
自動音声認識システムを構築する際には,ビデオメタデータが提供する文脈情報を利用することができる。
まず、ビデオメタデータの文脈ベクトル表現を抽出するために注意に基づく手法を用い、これらの表現をニューラルネットワークモデルへの入力の一部として利用する。
次に,メタデータ中の単語の発生確率を明示的に補間する,ハイブリッドポインターネットワーク手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T07:47:33Z) - Looking Enhances Listening: Recovering Missing Speech Using Images [40.616935661628155]
本稿では,雑音条件下での視覚的モダリティの有用性を示す一連の実験について述べる。
この結果から,マルチモーダル ASR モデルでは,入力音響信号に隠蔽された単語を,視覚的表現を用いて接地することで復元できることがわかった。
論文 参考訳(メタデータ) (2020-02-13T17:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。