論文の概要: OTSNet: A Neurocognitive-Inspired Observation-Thinking-Spelling Pipeline for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2511.08133v1
- Date: Wed, 12 Nov 2025 01:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.659783
- Title: OTSNet: A Neurocognitive-Inspired Observation-Thinking-Spelling Pipeline for Scene Text Recognition
- Title(参考訳): OTSNet: シーンテキスト認識のためのニューロ認知にインスパイアされた観察シンキング・スペルリングパイプライン
- Authors: Lixu Sun, Nurmemet Yolwas, Wushour Silamu,
- Abstract要約: 実世界の複雑さのため、Scene Text Recognition (STR) は依然として困難である。
OTSNetはニューロ認知にインスパイアされた観測シンキングペリングパイプラインを具現化した新しい3段階ネットワークである。
OTSNetは、Union14M-Lベンチマークで平均83.5%の精度を達成し、14のシナリオ中9つのシナリオでOSTが確立した新記録を79.1%とした。
- 参考スコア(独自算出の注目度): 3.5518986305758027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Text Recognition (STR) remains challenging due to real-world complexities, where decoupled visual-linguistic optimization in existing frameworks amplifies error propagation through cross-modal misalignment. Visual encoders exhibit attention bias toward background distractors, while decoders suffer from spatial misalignment when parsing geometrically deformed text-collectively degrading recognition accuracy for irregular patterns. Inspired by the hierarchical cognitive processes in human visual perception, we propose OTSNet, a novel three-stage network embodying a neurocognitive-inspired Observation-Thinking-Spelling pipeline for unified STR modeling. The architecture comprises three core components: (1) a Dual Attention Macaron Encoder (DAME) that refines visual features through differential attention maps to suppress irrelevant regions and enhance discriminative focus; (2) a Position-Aware Module (PAM) and Semantic Quantizer (SQ) that jointly integrate spatial context with glyph-level semantic abstraction via adaptive sampling; and (3) a Multi-Modal Collaborative Verifier (MMCV) that enforces self-correction through cross-modal fusion of visual, semantic, and character-level features. Extensive experiments demonstrate that OTSNet achieves state-of-the-art performance, attaining 83.5% average accuracy on the challenging Union14M-L benchmark and 79.1% on the heavily occluded OST dataset-establishing new records across 9 out of 14 evaluation scenarios.
- Abstract(参考訳): Scene Text Recognition (STR) は、既存のフレームワークで視覚言語最適化を分離することで、モーダルなミスアライメントによるエラーの伝播を増幅する、現実世界の複雑さのため、依然として困難である。
視覚エンコーダは背景の邪魔者に対する注意バイアスを示し、デコーダは幾何学的に変形したテキストを解析することで不規則パターンの認識精度を低下させ、空間的不整合に悩まされる。
人間の視覚知覚における階層的認知プロセスにインスパイアされた、神経認知にインスパイアされた観察-シンキング-スペリングパイプラインを具現化した新しい3段階ネットワークであるOTSNetを提案する。
本アーキテクチャは,(1)無関係な領域を抑え,差別的焦点を高めるために,ディファレンシャル・アテンション・アテンション・アテンション・マカロン・エンコーダ(DAME)による視覚的特徴の洗練,(2)アダプティブ・サンプリングによるグリフレベルのセマンティック・抽象化と空間的コンテキストを結合する位置認識モジュール(PAM)とセマンティック・量子化器(SQ),(3)視覚的・意味的・性格的特徴の相互融合による自己補正を行うマルチモーダル協調検証器(MMCV)の3つのコアコンポーネントから構成される。
OTSNetは最先端のパフォーマンスを達成し、挑戦的なUnion14M-Lベンチマークでは平均83.5%の精度を達成し、OSTデータセットのデータセット構築では79.1%を達成している。
関連論文リスト
- Hybrid CNN-ViT Framework for Motion-Blurred Scene Text Restoration [2.0855516369698845]
我々は、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を組み合わせたハイブリッドディープラーニングフレームワークを導入する。
アーキテクチャは構造の詳細を保存するためにCNNベースのエンコーダデコーダを使用し、トランスフォーマーモジュールは自己注意を通じてグローバルな認識を高める。
提案手法は,PSNRでは32.20dB,SSIMでは0.934dB,軽量では2.83万パラメータ,平均推定時間は61msである。
論文 参考訳(メタデータ) (2025-11-08T17:48:58Z) - LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model [18.564067196226436]
本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
論文 参考訳(メタデータ) (2025-09-29T17:58:28Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - SPHERE: Semantic-PHysical Engaged REpresentation for 3D Semantic Scene Completion [52.959716866316604]
カメラベース3Dセマンティックシーンコンプリート(SSC)は自動運転システムにおいて重要な課題である。
本稿では,SPHERE (Semantic-PHysical Engaged Representation) を提案する。
SPHEREは、意味情報と物理的情報の共同利用のためのボクセルとガウス表現を統合している。
論文 参考訳(メタデータ) (2025-09-14T09:07:41Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。
EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-14T12:21:26Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - Spatio-Temporal Representation Factorization for Video-based Person
Re-Identification [55.01276167336187]
本稿では、re-IDのための時空間表現分解モジュール(STRF)を提案する。
STRFはフレキシブルな新しい計算ユニットであり、re-IDのための既存のほとんどの3D畳み込みニューラルネットワークアーキテクチャと併用することができる。
実験により、STRFは様々なベースラインアーキテクチャの性能を向上し、新しい最先端の成果を示す。
論文 参考訳(メタデータ) (2021-07-25T19:29:37Z) - Robust Facial Landmark Detection by Cross-order Cross-semantic Deep
Network [58.843211405385205]
顔のランドマーク検出を堅牢にするためのセマンティックな特徴学習を促進するために,クロスオーダー・クロスセマンティック・ディープ・ネットワーク(CCDN)を提案する。
具体的には、より識別的な表現学習のためのクロスオーダーチャネル相関を導入するために、クロスオーダー2列マルチ励起(CTM)モジュールを提案する。
新しいクロス・オーダー・クロス・セマンティック・レギュレータ (COCS) は、顔のランドマーク検出のために異なるアクティベーションからクロス・オーダーのクロス・セマンティック特徴を学習するためにネットワークを駆動するように設計されている。
論文 参考訳(メタデータ) (2020-11-16T08:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。