論文の概要: Visual Information Matters for ASR Error Correction
- arxiv url: http://arxiv.org/abs/2303.10160v2
- Date: Fri, 26 May 2023 08:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 20:23:16.268060
- Title: Visual Information Matters for ASR Error Correction
- Title(参考訳): ASR誤り訂正のための視覚情報
- Authors: Vanya Bannihatti Kumar, Shanbo Cheng, Ningxin Peng, Yuchen Zhang
- Abstract要約: キャプションをプロンプトとして使用することで、視覚情報を効果的に利用し、ワードエラー率(WER)の最大1.2%で最先端の手法を超えることができる。
本論文は,1) 視覚情報を組み込んでECを支援するための方法として, ゲート融合とイメージキャプションを併用する簡易かつ効果的な手法,2) 大規模ベンチマークデータセット,すなわち Visual-ASR-EC を提供する。
実験結果から,字幕をプロンプトとして使用すれば,単語誤り率(WER)が最大1.2%向上し,視覚情報を効果的に活用できることがわかった。
- 参考スコア(独自算出の注目度): 7.254201945419229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aiming to improve the Automatic Speech Recognition (ASR) outputs with a
post-processing step, ASR error correction (EC) techniques have been widely
developed due to their efficiency in using parallel text data. Previous works
mainly focus on using text or/ and speech data, which hinders the performance
gain when not only text and speech information, but other modalities, such as
visual information are critical for EC. The challenges are mainly two folds:
one is that previous work fails to emphasize visual information, thus rare
exploration has been studied. The other is that the community lacks a
high-quality benchmark where visual information matters for the EC models.
Therefore, this paper provides 1) simple yet effective methods, namely gated
fusion and image captions as prompts to incorporate visual information to help
EC; 2) large-scale benchmark datasets, namely Visual-ASR-EC, where each item in
the training data consists of visual, speech, and text information, and the
test data are carefully selected by human annotators to ensure that even humans
could make mistakes when visual information is missing. Experimental results
show that using captions as prompts could effectively use the visual
information and surpass state-of-the-art methods by upto 1.2% in Word Error
Rate(WER), which also indicates that visual information is critical in our
proposed Visual-ASR-EC dataset
- Abstract(参考訳): 処理後のステップで自動音声認識(ASR)出力を改善するため,並列テキストデータの利用効率から,ASR誤り訂正(EC)技術が広く開発されている。
従来の著作は主にテキストや/および音声データの使用に焦点を当てており、テキストや音声情報だけでなく、視覚情報などの他のモダリティもecにとって重要である。
ひとつは、以前の作業が視覚的情報を強調しないため、希少な探索が研究されていることである。
もうひとつは、ECモデルに視覚情報が重要となる高品質なベンチマークが、コミュニティに欠けていることです。
ですから この論文は
1) 簡易かつ効果的な方法,すなわち,視覚情報をECに組み込むためのプロンプトとしてのゲート融合とイメージキャプション
2) 大規模なベンチマークデータセット,すなわちVisual-ASR-ECでは,トレーニングデータの各項目は視覚,音声,テキスト情報で構成され,テストデータは人間のアノテータによって慎重に選択され,視覚情報の欠落時に人間がミスを犯すことが保証される。
実験結果から,字幕をプロンプトとして使用すれば,視覚情報の有効利用が可能であり,単語誤り率(WER)が最大1.2%向上し,視覚情報がVisual-ASR-ECデータセットに必須であることが示唆された。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。
我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。
BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-04-01T04:28:01Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Image Difference Captioning with Pre-training and Contrastive Learning [45.59621065755761]
画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。
このタスクの主な課題は、1)より強力な視覚と言語関連を学習する必要のある、きめ細かい視覚的差異、2)手動アノテーションのコストの2つの側面にある。
本稿では,これらの課題に対処するために,事前学習ファインタニングパラダイムに基づく新しいモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:14:22Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。