論文の概要: Looking and Listening: Audio Guided Text Recognition
- arxiv url: http://arxiv.org/abs/2306.03482v1
- Date: Tue, 6 Jun 2023 08:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 16:43:03.534181
- Title: Looking and Listening: Audio Guided Text Recognition
- Title(参考訳): 検索と聞き取り:音声ガイドによるテキスト認識
- Authors: Wenwen Yu, Mingyu Liu, Biao Yang, Enming Zhang, Deqiang Jiang, Xing
Sun, Yuliang Liu, Xiang Bai
- Abstract要約: 野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
- 参考スコア(独自算出の注目度): 62.98768236858089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text recognition in the wild is a long-standing problem in computer vision.
Driven by end-to-end deep learning, recent studies suggest vision and language
processing are effective for scene text recognition. Yet, solving edit errors
such as add, delete, or replace is still the main challenge for existing
approaches. In fact, the content of the text and its audio are naturally
corresponding to each other, i.e., a single character error may result in a
clear different pronunciation. In this paper, we propose the AudioOCR, a simple
yet effective probabilistic audio decoder for mel spectrogram sequence
prediction to guide the scene text recognition, which only participates in the
training phase and brings no extra cost during the inference stage. The
underlying principle of AudioOCR can be easily applied to the existing
approaches. Experiments using 7 previous scene text recognition methods on 12
existing regular, irregular, and occluded benchmarks demonstrate our proposed
method can bring consistent improvement. More importantly, through our
experimentation, we show that AudioOCR possesses a generalizability that
extends to more challenging scenarios, including recognizing non-English text,
out-of-vocabulary words, and text with various accents. Code will be available
at https://github.com/wenwenyu/AudioOCR.
- Abstract(参考訳): テキスト認識は、コンピュータビジョンにおける長年の問題である。
エンド・ツー・エンドのディープラーニングによって駆動される最近の研究は、視覚と言語処理がシーンテキスト認識に有効であることを示唆している。
しかし、既存のアプローチでは、追加、削除、置換などの編集エラーを解決することが大きな課題である。
実際、テキストの内容と音声は互いに自然に対応しており、例えば1文字の誤りははっきりと異なる発音をもたらす可能性がある。
本稿では,AudioOCRを提案する。AudioOCRはメルスペクトログラムシーケンス予測のためのシンプルで効果的な確率的オーディオデコーダで,シーンテキスト認識を誘導する。
AudioOCRの基本原理は、既存のアプローチに容易に適用できる。
既存の正則, 不規則, 暗黙のベンチマーク12項目に対して, 先行する7場面のテキスト認識手法を用いた実験により, 提案手法が一貫した改善をもたらすことを実証した。
さらに重要なことは、実験を通じて、AudioOCRは、非英語のテキスト認識、語彙外単語、様々なアクセント付きテキストなど、より困難なシナリオにまで及ぶ一般化性を持っていることを示しています。
コードはhttps://github.com/wenwenyu/AudioOCRで入手できる。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - An efficient text augmentation approach for contextualized Mandarin speech recognition [4.600045052545344]
本研究は、テキストのみのデータセットを活用し、事前学習されたASRモデルを文脈化することを提案する。
事前学習したCIFベースのASRを文脈化するために,限られた音声テキストデータを用いたコードブックを構築した。
多様なマンダリンテストセットに対する実験により,我々のTAアプローチは認識性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-06-14T11:53:14Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature
Alignment [16.304894187743013]
TEFALは、テキストクエリで条件付けられた音声とビデオの両方の表現を生成する、TExt条件のフィーチャーアライメント手法である。
提案手法では、2つの独立したモーダル・アテンション・ブロックを用いて、テキストが音声とビデオの表現を別々に扱えるようにしている。
論文 参考訳(メタデータ) (2023-07-24T17:43:13Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。