論文の概要: TiCLS : Tightly Coupled Language Text Spotter
- arxiv url: http://arxiv.org/abs/2602.04030v1
- Date: Tue, 03 Feb 2026 21:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.282762
- Title: TiCLS : Tightly Coupled Language Text Spotter
- Title(参考訳): TiCLS : わずかに結合した言語テキストスポッター
- Authors: Leeje Jang, Yijun Lin, Yao-Yi Chiang, Jerod Weinman,
- Abstract要約: シーンテキストスポッティングは、インスタンスがしばしば短く、断片化され、視覚的に曖昧である実世界の画像中のテキストを検出し、認識することを目的としている。
文字レベルの事前学習言語モデルから外部言語知識を明示的に取り入れた,エンドツーエンドテキストスポッターTiを提案する。
Tiは、視覚的特徴と言語的特徴を融合させる言語デコーダを導入しているが、事前訓練された言語モデルによって誘導され、曖昧なテキストや断片化されたテキストの堅牢な認識を可能にする。
- 参考スコア(独自算出の注目度): 4.1628458422583785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text spotting aims to detect and recognize text in real-world images, where instances are often short, fragmented, or visually ambiguous. Existing methods primarily rely on visual cues and implicitly capture local character dependencies, but they overlook the benefits of external linguistic knowledge. Prior attempts to integrate language models either adapt language modeling objectives without external knowledge or apply pretrained models that are misaligned with the word-level granularity of scene text. We propose TiCLS, an end-to-end text spotter that explicitly incorporates external linguistic knowledge from a character-level pretrained language model. TiCLS introduces a linguistic decoder that fuses visual and linguistic features, yet can be initialized by a pretrained language model, enabling robust recognition of ambiguous or fragmented text. Experiments on ICDAR 2015 and Total-Text demonstrate that TiCLS achieves state-of-the-art performance, validating the effectiveness of PLM-guided linguistic integration for scene text spotting.
- Abstract(参考訳): シーンテキストスポッティング(Scene text spotting)は、実世界の画像中のテキストを検出し、認識することを目的としている。
既存の手法は主に視覚的手がかりに依存し、局所的な文字依存を暗黙的に捉えるが、それらは外的言語知識の利点を見落としている。
言語モデルを統合する以前の試みは、外部知識なしで言語モデリングの目的を適応させるか、シーンテキストの単語レベルの粒度とミスマッチした事前訓練されたモデルを適用するかのどちらかであった。
文字レベルの事前学習言語モデルから外部言語知識を明示的に取り入れた,エンドツーエンドテキストスポッターTiCLSを提案する。
TiCLSは、視覚的特徴と言語的特徴を融合させる言語デコーダを導入しているが、事前訓練された言語モデルによって初期化することができ、曖昧なテキストや断片的なテキストの堅牢な認識を可能にする。
ICDAR 2015とTotal-Textの実験では、TiCLSが最先端のパフォーマンスを実現し、シーンテキストスポッティングにおけるPLM誘導言語統合の有効性を検証する。
関連論文リスト
- SAViL-Det: Semantic-Aware Vision-Language Model for Multi-Script Text Detection [4.013156524547072]
本稿では,多文テキスト検出機能を備えた意味認識型視覚言語モデルSAViL-Detを紹介する。
提案フレームワークは,テキストプロンプトから視覚的特徴への微粒な意味情報を,モーダルな注意を通して適応的に伝達する。
挑戦的なベンチマークの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2025-07-27T09:16:39Z) - Linguistics-aware Masked Image Modeling for Self-supervised Scene Text Recognition [50.86415025650168]
マスク付き画像モデリング(MIM)は、局所的な構造を利用して視覚パターンを再構築する傾向があり、言語知識は限られている。
本稿では,言語情報とMIMの復号過程を別ブランチで関連づける,言語学対応の仮面画像モデリング(LMIM)手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T14:53:35Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。