論文の概要: DOTA: Deformable Optimized Transformer Architecture for End-to-End Text Recognition with Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2505.04175v1
- Date: Wed, 07 May 2025 07:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.995997
- Title: DOTA: Deformable Optimized Transformer Architecture for End-to-End Text Recognition with Retrieval-Augmented Generation
- Title(参考訳): DOTA:検索機能付きエンドツーエンドテキスト認識のための変形可能な最適化トランスフォーマアーキテクチャ
- Authors: Naphat Nithisopa, Teerapong Panboonyuen,
- Abstract要約: 本稿では、ResNetとVision TransformerのバックボーンとDeformable Convolutions, Retrieval-Augmented Generation, Conditional Random Fields (CRF)などの高度な方法論を組み合わせた新しいエンドツーエンドフレームワークを提案する。
6つのベンチマークデータセットで実施された実験は、テキスト認識のための新しい最先端技術を確立し、多種多様な挑戦的なデータセットにまたがるアプローチの堅牢性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text recognition in natural images remains a challenging yet essential task, with broad applications spanning computer vision and natural language processing. This paper introduces a novel end-to-end framework that combines ResNet and Vision Transformer backbones with advanced methodologies, including Deformable Convolutions, Retrieval-Augmented Generation, and Conditional Random Fields (CRF). These innovations collectively enhance feature representation and improve Optical Character Recognition (OCR) performance. Specifically, the framework substitutes standard convolution layers in the third and fourth blocks with Deformable Convolutions, leverages adaptive dropout for regularization, and incorporates CRF for more refined sequence modeling. Extensive experiments conducted on six benchmark datasets IC13, IC15, SVT, IIIT5K, SVTP, and CUTE80 validate the proposed method's efficacy, achieving notable accuracies: 97.32% on IC13, 58.26% on IC15, 88.10% on SVT, 74.13% on IIIT5K, 82.17% on SVTP, and 66.67% on CUTE80, resulting in an average accuracy of 77.77%. These results establish a new state-of-the-art for text recognition, demonstrating the robustness of the approach across diverse and challenging datasets.
- Abstract(参考訳): 自然画像におけるテキスト認識は、コンピュータビジョンと自然言語処理にまたがる幅広い用途において、難しいが必須の課題である。
本稿では、ResNetとVision TransformerのバックボーンとDeformable Convolutions、Retrieval-Augmented Generation、Conditional Random Fields(CRF)といった高度な方法論を組み合わせた新しいエンドツーエンドフレームワークを提案する。
これらの革新は、総合的に特徴表現を強化し、光学文字認識(OCR)性能を向上させる。
具体的には、第3ブロックと第4ブロックの標準畳み込み層を変形可能な畳み込みに置き換え、正規化に適応的なドロップアウトを活用し、より洗練されたシーケンスモデリングにCRFを組み込む。
IC13の97.32%、IC15の58.26%、SVTの88.10%、IIIT5Kの74.13%、SVTPの82.17%、CUTE80の平均精度は77.77%である。
これらの結果はテキスト認識のための新しい最先端技術を確立し、多様な挑戦的なデータセットにまたがるアプローチの堅牢性を示す。
関連論文リスト
- AdaptoVision: A Multi-Resolution Image Recognition Model for Robust and Scalable Classification [0.0]
AdaptoVisionは、計算複雑性と分類精度を効率的にバランスさせるように設計された、新しい畳み込みニューラルネットワーク(CNN)アーキテクチャである。
強化された残余単位、深さ的に分離可能な畳み込み、階層的なスキップ接続を利用することで、AdaptoVisionはパラメータ数と計算要求を大幅に削減する。
CIFAR-10では95.3%、CIFAR-100では85.77%であり、事前訓練された重量に依存しない。
論文 参考訳(メタデータ) (2025-04-17T05:23:07Z) - A Transformer-in-Transformer Network Utilizing Knowledge Distillation for Image Recognition [0.8196125054032961]
画像のグローバルな側面とローカルな側面に注意を向けるインナー・インナー・トランスフォーマー・ベースのアーキテクチャを提案する。
我々のアプローチは学習効率と効果を高める。
注目すべきは、提案されているTransformer-in-Transformer Network(TITN)モデルが、さまざまなデータセット間で印象的なマイルストーンを達成していることだ。
論文 参考訳(メタデータ) (2025-02-24T00:41:46Z) - Video Prediction Transformers without Recurrence or Convolution [65.93130697098658]
我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。
本稿では,映像予測の文脈における3次元注意の包括的分析を行う。
精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing [43.63139112740413]
我々は,エキスパート選択ルーティングを備えた拡散変圧器のためのMixture-of-Experts(MoE)モデル(EC-DIT)を新たに開発する。
EC-DITは、入力テキストを理解するために割り当てられた計算を適応的に最適化し、各画像パッチを生成する。
テキストと画像のアライメント評価において、我々の最大のモデルでは、最先端のGenEvalスコアが71.68%に達し、直感的に解釈可能な競合推論速度を維持しています。
論文 参考訳(メタデータ) (2024-10-02T23:39:10Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Compounding the Performance Improvements of Assembled Techniques in a
Convolutional Neural Network [6.938261599173859]
基本CNNモデルの精度とロバスト性を改善する方法について述べる。
提案したResNet-50は、トップ1の精度を76.3%から82.78%、mCEを76.0%から48.9%、mFRを57.7%から32.3%に改善した。
CVPR 2019でiFood Competition Fine-Grained Visual Recognitionで1位を獲得した。
論文 参考訳(メタデータ) (2020-01-17T12:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。