論文の概要: Towards Optimizing OCR for Accessibility
- arxiv url: http://arxiv.org/abs/2206.10254v1
- Date: Tue, 21 Jun 2022 11:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 02:21:24.600878
- Title: Towards Optimizing OCR for Accessibility
- Title(参考訳): アクセシビリティのためのOCR最適化に向けて
- Authors: Peya Mowar, Tanuja Ganu, Saikat Guha
- Abstract要約: 構造、強調、アイコンなどの視覚的手がかりは、視覚障害者による効率的な情報収集に重要な役割を果たしている。
楽しいリスニング体験のための4つのセマンティックな目標を特定し、これらの目標に向かって進むのに役立つ統語的視覚的手がかりを特定する。
- 参考スコア(独自算出の注目度): 2.1325744957975568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual cues such as structure, emphasis, and icons play an important role in
efficient information foraging by sighted individuals and make for a
pleasurable reading experience. Blind, low-vision and other print-disabled
individuals miss out on these cues since current OCR and text-to-speech
software ignore them, resulting in a tedious reading experience. We identify
four semantic goals for an enjoyable listening experience, and identify
syntactic visual cues that help make progress towards these goals. Empirically,
we find that preserving even one or two visual cues in aural form significantly
enhances the experience for listening to print content.
- Abstract(参考訳): 構造、強調、アイコンといった視覚的な手がかりは、視覚障害者による効率的な情報収集において重要な役割を担い、快適な読書体験を実現する。
ブラインド、低ビジョン、その他の印刷不能な個人は、現在のOCRやテキスト音声ソフトウェアがそれらを無視しているため、これらの手がかりを見逃してしまう。
楽しいリスニング体験のための4つのセマンティック目標を特定し、これらの目標に向かって進むのに役立つ統語的視覚的手がかりを特定する。
経験的に、1つか2つの視覚的手がかりを聴覚形式で保存することは、印刷コンテンツの聴取経験を著しく向上させる。
関連論文リスト
- VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding [18.609441902943445]
VisFocusは、視覚エンコーダのキャパシティを言語プロンプトと直接結合することにより、OCRフリーな手法である。
視覚的エンコーダに入力された文書テキストのスニペットに言語マスキングを用いて,アーキテクチャ拡張と新たな事前学習タスクを組み合わせた。
我々の実験は、このプロンプト誘導型視覚符号化アプローチが性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-07-17T14:16:46Z) - Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - Visual Information Matters for ASR Error Correction [7.254201945419229]
キャプションをプロンプトとして使用することで、視覚情報を効果的に利用し、ワードエラー率(WER)の最大1.2%で最先端の手法を超えることができる。
本論文は,1) 視覚情報を組み込んでECを支援するための方法として, ゲート融合とイメージキャプションを併用する簡易かつ効果的な手法,2) 大規模ベンチマークデータセット,すなわち Visual-ASR-EC を提供する。
実験結果から,字幕をプロンプトとして使用すれば,単語誤り率(WER)が最大1.2%向上し,視覚情報を効果的に活用できることがわかった。
論文 参考訳(メタデータ) (2023-03-16T06:33:53Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - On the Role of Visual Cues in Audiovisual Speech Enhancement [21.108094726214784]
ニューラルオーディオ視覚音声強調モデルでは、視覚的手がかりを用いてターゲット音声信号の品質を向上させる方法を示す。
この発見の副産物の1つは、学習された視覚埋め込みが他の視覚音声アプリケーションの機能として利用できることである。
論文 参考訳(メタデータ) (2020-04-25T01:00:03Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。