論文の概要: TexTAR : Textual Attribute Recognition in Multi-domain and Multi-lingual Document Images
- arxiv url: http://arxiv.org/abs/2509.13151v1
- Date: Tue, 16 Sep 2025 15:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.139749
- Title: TexTAR : Textual Attribute Recognition in Multi-domain and Multi-lingual Document Images
- Title(参考訳): TexTAR : 多言語・多言語文書画像におけるテキスト属性認識
- Authors: Rohan Kumar, Jyothi Swaroopa Jinka, Ravi Kiran Sarvadevabhatla,
- Abstract要約: テキスト属性認識(TAR)のためのマルチタスク・コンテキスト対応トランスフォーマであるTexTARを紹介する。
我々のアーキテクチャでは、入力コンテキストを組み込んでより正確な予測を行うために、2D RoPE(Rotary Positional Embedding)方式のメカニズムを採用している。
実世界の文書にテキスト属性を付加した多言語多ドメインデータセットであるMTADも導入した。
- 参考スコア(独自算出の注目度): 8.505694818967674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing textual attributes such as bold, italic, underline and strikeout is essential for understanding text semantics, structure, and visual presentation. These attributes highlight key information, making them crucial for document analysis. Existing methods struggle with computational efficiency or adaptability in noisy, multilingual settings. To address this, we introduce TexTAR, a multi-task, context-aware Transformer for Textual Attribute Recognition (TAR). Our novel data selection pipeline enhances context awareness, and our architecture employs a 2D RoPE (Rotary Positional Embedding)-style mechanism to incorporate input context for more accurate attribute predictions. We also introduce MMTAD, a diverse, multilingual, multi-domain dataset annotated with text attributes across real-world documents such as legal records, notices, and textbooks. Extensive evaluations show TexTAR outperforms existing methods, demonstrating that contextual awareness contributes to state-of-the-art TAR performance.
- Abstract(参考訳): 大胆、イタリック、アンダーライン、ストライクアウトといったテキスト属性を認識することは、テキストの意味論、構造、視覚的表現を理解するために不可欠である。
これらの属性は重要な情報を強調し、ドキュメント分析に不可欠である。
既存の手法は、ノイズの多い多言語設定で計算効率や適応性に苦しむ。
そこで本研究では,テキスト属性認識(TAR)のためのマルチタスク・コンテキスト対応トランスフォーマであるTexTARを紹介する。
我々の新しいデータ選択パイプラインは、コンテキスト認識を強化し、我々のアーキテクチャは2D RoPE(Rotary Positional Embedding)スタイルのメカニズムを使って、より正確な属性予測のために入力コンテキストを組み込む。
MMTADも導入した。MMTADは多言語、多言語、多ドメインのデータセットで、法的記録、通知、教科書などの実世界の文書にテキスト属性が付加されている。
TexTARは既存の手法よりも優れており、文脈認識が最先端のTAR性能に寄与することを示した。
関連論文リスト
- Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding [42.506971197471195]
ドキュメント解析のために約3.8Mの事前学習データペアで構成されるDocMark-Pileと、グラウンドド命令に従うための624kの微調整データアノテーションを備えたDocMark-Instructの2つのきめ細かい構造化データセットを紹介した。
提案手法は,様々なビジュアル文書理解ベンチマークにおいて,既存の最先端MLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-05-08T17:37:36Z) - Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。