論文の概要: Col-OLHTR: A Novel Framework for Multimodal Online Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2502.06100v1
- Date: Mon, 10 Feb 2025 02:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:05.170580
- Title: Col-OLHTR: A Novel Framework for Multimodal Online Handwritten Text Recognition
- Title(参考訳): Col-OLHTR:マルチモーダルオンライン手書き文字認識のための新しいフレームワーク
- Authors: Chenyu Liu, Jinshui Hu, Baocai Yin, Jia Pan, Bing Yin, Jun Du, Qingfeng Liu,
- Abstract要約: オンライン手書き文字認識(OLHTR)は様々な用途で注目されている。
現在のアプローチは通常、OLHTRをシーケンス認識タスクとして扱い、単一のトラジェクトリまたはイメージエンコーダまたはマルチストリームエンコーダを使用する。
単ストリーム推論プロセスを維持しながら、トレーニング中にマルチモーダルな特徴を学習するコラボレーティブ学習ベースのOLHTRフレームワークCol-OLHTRを提案する。
- 参考スコア(独自算出の注目度): 82.88856416080331
- License:
- Abstract: Online Handwritten Text Recognition (OLHTR) has gained considerable attention for its diverse range of applications. Current approaches usually treat OLHTR as a sequence recognition task, employing either a single trajectory or image encoder, or multi-stream encoders, combined with a CTC or attention-based recognition decoder. However, these approaches face several drawbacks: 1) single encoders typically focus on either local trajectories or visual regions, lacking the ability to dynamically capture relevant global features in challenging cases; 2) multi-stream encoders, while more comprehensive, suffer from complex structures and increased inference costs. To tackle this, we propose a Collaborative learning-based OLHTR framework, called Col-OLHTR, that learns multimodal features during training while maintaining a single-stream inference process. Col-OLHTR consists of a trajectory encoder, a Point-to-Spatial Alignment (P2SA) module, and an attention-based decoder. The P2SA module is designed to learn image-level spatial features through trajectory-encoded features and 2D rotary position embeddings. During training, an additional image-stream encoder-decoder is collaboratively trained to provide supervision for P2SA features. At inference, the extra streams are discarded, and only the P2SA module is used and merged before the decoder, simplifying the process while preserving high performance. Extensive experimental results on several OLHTR benchmarks demonstrate the state-of-the-art (SOTA) performance, proving the effectiveness and robustness of our design.
- Abstract(参考訳): オンライン手書き文字認識(OLHTR)は様々な用途で注目されている。
現在のアプローチでは、OLHTRをシーケンス認識タスクとして扱い、単一のトラジェクトリまたはイメージエンコーダ、あるいはマルチストリームエンコーダのいずれかを使用し、CTCまたはアテンションベースの認識デコーダと組み合わせている。
しかし、これらのアプローチにはいくつかの欠点がある。
1) シングルエンコーダは,通常,局地的軌跡又は視覚的領域に焦点をあてるが,困難な場合において,関連するグローバルな特徴を動的に捉える能力が欠如している。
2) マルチストリームエンコーダはより包括的ではあるが, 複雑な構造と推論コストの増大に悩まされている。
そこで本研究では,コラボレーティブ学習に基づくOLHTRフレームワークCol-OLHTRを提案する。
Col-OLHTRは軌道エンコーダ、P2SAモジュール、アテンションベースのデコーダで構成される。
P2SAモジュールは、軌跡符号化された特徴と2次元回転位置埋め込みにより、画像レベルの空間的特徴を学習するように設計されている。
トレーニング中、P2SA機能の監視を提供するために、追加のイメージストリームエンコーダ/デコーダが協調的にトレーニングされる。
推論では、余分なストリームは破棄され、P2SAモジュールのみがデコーダの前に使われ、マージされる。
いくつかのOLHTRベンチマークによる大規模な実験結果から,SOTA(State-of-the-art)の性能が実証され,設計の有効性と堅牢性が確認された。
関連論文リスト
- A Simple Baseline with Single-encoder for Referring Image Segmentation [14.461024566536478]
本稿では,単一エンコーダ(BEiT-3)を用いたRIS法を提案する。
単一エンコーダによる単純なベースラインは、RISベンチマークデータセット上で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-28T04:14:01Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive
Feature Learning in Speech Enhancement [0.2538209532048866]
本稿では、時間周波数(T-F)ドメイン音声強調ネットワーク(DPCFCS-Net)を提案する。
改良された高密度接続ブロック、デュアルパスモジュール、畳み込み拡張トランス(コンフォーマー)、チャンネルアテンション、空間アテンションが組み込まれている。
従来のモデルと比較して,提案モデルはより効率的なエンコーダデコーダを備え,包括的特徴を学習することができる。
論文 参考訳(メタデータ) (2023-06-09T12:52:01Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Adjacent Context Coordination Network for Salient Object Detection in
Optical Remote Sensing Images [102.75699068451166]
本稿では,光RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて,隣接した特徴のコーディネートを探索するための新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。
提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsで動作する。
論文 参考訳(メタデータ) (2022-03-25T14:14:55Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Auto-Encoder based Co-Training Multi-View Representation Learning [10.120166898507328]
自動エンコーダに基づくコトレーニング型マルチビュー学習(ACMVL)という新しいアルゴリズムを提案する。
アルゴリズムには2つの段階があり、第1は各ビューの自動エンコーダを訓練し、第2段階は教師付きネットワークを訓練する。
実験結果から,優れた潜在特徴表現を学習でき,各ビューの自動エンコーダは従来のオートエンコーダよりも強力な再構成能力を有することがわかった。
論文 参考訳(メタデータ) (2022-01-09T10:20:16Z) - Representation and Correlation Enhanced Encoder-Decoder Framework for
Scene Text Recognition [10.496558786568672]
本稿では,これらの欠陥に対処し,性能ボトルネックを解消するRepresentation and correlation Enhanced-Decoder Framework(RCEED)を提案する。
エンコーダモジュールでは、局所視覚特徴、グローバルコンテキスト特徴、位置情報を整列して融合させ、小型の包括的特徴マップを生成する。
デコーダモジュールでは,シーン特徴空間とテキスト特徴空間の相関性を高めるために2つの手法が用いられている。
論文 参考訳(メタデータ) (2021-06-13T10:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。