論文の概要: Hear the Scene: Audio-Enhanced Text Spotting
- arxiv url: http://arxiv.org/abs/2412.19504v2
- Date: Thu, 02 Jan 2025 02:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 11:36:41.929294
- Title: Hear the Scene: Audio-Enhanced Text Spotting
- Title(参考訳): 音声でテキストのスポッティングができる「Hear the Scene」
- Authors: Jing Li, Bo Wang,
- Abstract要約: テキストスポッティングモデルのトレーニングに転写アノテーションのみを活用する革新的なアプローチを導入する。
提案手法では,暗黙的な位置特徴の学習を容易にする問合せに基づくパラダイムを用いている。
より正確なテキストインスタンスのローカライズを行うために、粗大から細粒のクロスアテンションローカライズ機構を導入する。
- 参考スコア(独自算出の注目度): 5.147406854508998
- License:
- Abstract: Recent advancements in scene text spotting have focused on end-to-end methodologies that heavily rely on precise location annotations, which are often costly and labor-intensive to procure. In this study, we introduce an innovative approach that leverages only transcription annotations for training text spotting models, substantially reducing the dependency on elaborate annotation processes. Our methodology employs a query-based paradigm that facilitates the learning of implicit location features through the interaction between text queries and image embeddings. These features are later refined during the text recognition phase using an attention activation map. Addressing the challenges associated with training a weakly-supervised model from scratch, we implement a circular curriculum learning strategy to enhance model convergence. Additionally, we introduce a coarse-to-fine cross-attention localization mechanism for more accurate text instance localization. Notably, our framework supports audio-based annotation, which significantly diminishes annotation time and provides an inclusive alternative for individuals with disabilities. Our approach achieves competitive performance against existing benchmarks, demonstrating that high accuracy in text spotting can be attained without extensive location annotations.
- Abstract(参考訳): シーンテキストスポッティングの最近の進歩は、正確な位置アノテーションに大きく依存するエンドツーエンドの方法論に焦点を当てている。
本研究では,テキストスポッティングモデルの訓練に転写アノテーションのみを活用する革新的な手法を導入し,精巧なアノテーション処理への依存を大幅に軽減する。
本手法では,テキストクエリと画像埋め込みの相互作用を通じて,暗黙的な位置特徴の学習を容易にするクエリベースのパラダイムを用いる。
これらの機能は、アテンションアクティベーションマップを使用して、テキスト認識フェーズ中に洗練される。
スクラッチから弱教師付きモデルを訓練する際の課題に対処するため,モデルの収束性を高めるために,循環型カリキュラム学習戦略を実装した。
さらに、より正確なテキストインスタンスのローカライズを行うために、粗大かつ細粒度のクロスアテンションローカライズ機構を導入する。
特に,本フレームワークは,アノテーションの時間を大幅に短縮し,障害のある個人に対して包括的代替手段を提供する音声ベースのアノテーションをサポートしている。
提案手法は既存のベンチマークと競合する性能を達成し,テキストスポッティングの精度を広い位置アノテーションを使わずに達成できることを実証する。
関連論文リスト
- Exploring Local Memorization in Diffusion Models via Bright Ending Attention [62.979954692036685]
拡散モデルにおける新しい明るいエンディング(BE)異常を識別し,活用し,トレーニング画像を記憶する。
また, 暗記画像パッチは, 非暗記画像パッチに比べて最終推論段階において, エンドトークンに対して有意に注意を払っていることが示唆された。
本稿では、BEと新しいローカライゼーションタスクの結果を既存のフレームワークに組み込むための、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-29T02:16:01Z) - Manual Verbalizer Enrichment for Few-Shot Text Classification [1.860409237919611]
acrshortmaveは、クラスラベルの豊か化による動詞化のためのアプローチである。
本モデルでは, 資源を著しく減らしながら, 最先端の成果が得られている。
論文 参考訳(メタデータ) (2024-10-08T16:16:47Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Multi-modal Prompting for Low-Shot Temporal Action Localization [95.19505874963751]
低ショット(ゼロショット・少数ショット)シナリオ下での時間的行動局所化の問題点を考察する。
クラスに依存しない2段階のアクションローカライズアーキテクチャをTransformerに導入し,その後にオープン語彙分類を行った。
論文 参考訳(メタデータ) (2023-03-21T10:40:13Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - Utterance Rewriting with Contrastive Learning in Multi-turn Dialogue [22.103162555263143]
比較学習とマルチタスク学習を導入し、問題を共同でモデル化する。
提案手法は,複数の公開データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-22T10:13:27Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z) - Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos [73.4504252917816]
ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T07:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。