Fugu-MT 論文翻訳(概要): Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition

論文の概要: Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition

arxiv url: http://arxiv.org/abs/2402.15806v1
Date: Sat, 24 Feb 2024 13:00:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 16:51:32.033688
Title: Sequential Visual and Semantic Consistency for Semi-supervised Text Recognition
Title（参考訳）: 半教師付きテキスト認識における逐次的視覚的・意味的一貫性
Authors: Mingkun Yang, Biao Yang, Minghui Liao, Yingying Zhu, Xiang Bai
Abstract要約: Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
参考スコア（独自算出の注目度）: 56.968108142307976
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene text recognition (STR) is a challenging task that requires large-scale annotated data for training. However, collecting and labeling real text images is expensive and time-consuming, which limits the availability of real data. Therefore, most existing STR methods resort to synthetic data, which may introduce domain discrepancy and degrade the performance of STR models. To alleviate this problem, recent semi-supervised STR methods exploit unlabeled real data by enforcing character-level consistency regularization between weakly and strongly augmented views of the same image. However, these methods neglect word-level consistency, which is crucial for sequence recognition tasks. This paper proposes a novel semi-supervised learning method for STR that incorporates word-level consistency regularization from both visual and semantic aspects. Specifically, we devise a shortest path alignment module to align the sequential visual features of different views and minimize their distance. Moreover, we adopt a reinforcement learning framework to optimize the semantic similarity of the predicted strings in the embedding space. We conduct extensive experiments on several standard and challenging STR benchmarks and demonstrate the superiority of our proposed method over existing semi-supervised STR methods.
Abstract（参考訳）: Scene Text Recognition (STR) は、大規模な注釈付きデータを必要とする課題である。しかし、実際のテキスト画像の収集とラベリングは高価で時間がかかり、実際のデータの可用性が制限される。したがって、既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データを利用する。この問題を緩和するために、最近の半教師付きSTR法は、同じ画像の弱い画像と強い拡張ビューの間の文字レベルの整合性正規化を強制することにより、ラベルのない実データを利用する。しかし、これらの手法は単語レベルの一貫性を無視しており、シーケンス認識タスクには不可欠である。本稿では,視覚面と意味面の両方から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。具体的には、異なるビューのシーケンシャルな視覚的特徴を調整し、距離を最小化する最短経路アライメントモジュールを考案する。さらに,埋め込み空間における予測文字列の意味的類似性を最適化するために,強化学習フレームワークを採用する。提案手法が既存の半教師付きSTR法よりも優れていることを示す。

関連論文リスト

CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文参考訳（メタデータ） (2025-10-03T08:50:21Z)
Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文参考訳（メタデータ） (2025-09-16T04:18:48Z)
Relational Contrastive Learning and Masked Image Modeling for Scene Text Recognition [36.59116507158687]
STR(RCMSTR)のためのコントラスト学習とマスケ画像モデリングの統合フレームワークを提案する。提案したRCMSTRは、STR関連下流タスクにおいて優れた性能を示し、既存の最先端の自己教師型STR技術よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-11-18T01:11:47Z)
Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-06T15:17:51Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Pushing the Performance Limit of Scene Text Recognizer without Human Annotation [17.092815629040388]
我々は、合成データと多数の実際の未ラベル画像の両方を活用することでSTRモデルを強化することを目指している。文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。
論文参考訳（メタデータ） (2022-04-16T04:42:02Z)
Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文参考訳（メタデータ） (2022-02-21T15:30:14Z)
Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文参考訳（メタデータ） (2020-06-22T13:03:01Z)
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。 GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文参考訳（メタデータ） (2020-03-27T09:19:25Z)
AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文参考訳（メタデータ） (2020-03-14T06:51:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。