論文の概要: Dynamic Relation Transformer for Contextual Text Block Detection
- arxiv url: http://arxiv.org/abs/2401.09232v1
- Date: Wed, 17 Jan 2024 14:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:50:38.763172
- Title: Dynamic Relation Transformer for Contextual Text Block Detection
- Title(参考訳): 文脈テキストブロック検出のための動的関係変換器
- Authors: Jiawei Wang, Shunchi Zhang, Kai Hu, Chixiang Ma, Zhuoyao Zhong, Lei
Sun, Qiang Huo
- Abstract要約: コンテキストテキストブロック検出は、自然シーンの複雑さの中でコヒーレントテキストブロックを識別するタスクである。
従来の手法では、CTBDはコンピュータビジョンにおける視覚的関係抽出の課題であったり、シーケンスモデリングの問題であったりしていた。
グラフ生成問題として CTBD をフレーム化する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.644204545582742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual Text Block Detection (CTBD) is the task of identifying coherent
text blocks within the complexity of natural scenes. Previous methodologies
have treated CTBD as either a visual relation extraction challenge within
computer vision or as a sequence modeling problem from the perspective of
natural language processing. We introduce a new framework that frames CTBD as a
graph generation problem. This methodology consists of two essential
procedures: identifying individual text units as graph nodes and discerning the
sequential reading order relationships among these units as graph edges.
Leveraging the cutting-edge capabilities of DQ-DETR for node detection, our
framework innovates further by integrating a novel mechanism, a Dynamic
Relation Transformer (DRFormer), dedicated to edge generation. DRFormer
incorporates a dual interactive transformer decoder that deftly manages a
dynamic graph structure refinement process. Through this iterative process, the
model systematically enhances the graph's fidelity, ultimately resulting in
improved precision in detecting contextual text blocks. Comprehensive
experimental evaluations conducted on both SCUT-CTW-Context and ReCTS-Context
datasets substantiate that our method achieves state-of-the-art results,
underscoring the effectiveness and potential of our graph generation framework
in advancing the field of CTBD.
- Abstract(参考訳): 文脈的テキストブロック検出(ctbd)は、自然シーンの複雑さの中で一貫性のあるテキストブロックを識別するタスクである。
従来の手法では、CTBDはコンピュータビジョンにおける視覚的関係抽出問題や、自然言語処理の観点からのシーケンスモデリング問題として扱われてきた。
グラフ生成問題として CTBD をフレーム化する新しいフレームワークを提案する。
この手法は、個々のテキスト単位をグラフノードとして識別し、これらの単位間のシーケンシャルな読み込み順序関係をグラフエッジとして識別する2つの重要な手順から構成される。
ノード検出のためのdq-detrの最先端機能を活用することで,新たなメカニズムである動的関係トランスフォーマ(drformer)をエッジ生成専用に統合することで,さらなる革新を実現する。
drformerは、動的グラフ構造の改良プロセスを完全に管理するデュアルインタラクティブトランスフォーマデコーダを組み込んでいる。
この反復的プロセスを通じて、このモデルはグラフの忠実度を体系的に向上し、最終的に文脈テキストブロックの検出精度が向上する。
SCUT-CTW-Context と ReCTS-Context の2つのデータセットを用いた総合的な実験的評価により,CTBD の分野を推し進める上でのグラフ生成フレームワークの有効性と可能性を明らかにする。
関連論文リスト
- A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - R2D2: Relational Text Decoding with Transformers [18.137828323277347]
グラフ構造とそれらのノードとエッジに関連付けられた自然言語テキストとの相互作用をモデル化する新しいフレームワークを提案する。
提案手法は,グラフィカル構造とテキストのシーケンシャルな性質の両方を利用する。
提案モデルには幅広い応用があるが,データ・テキスト生成タスクにおけるその機能を示す。
論文 参考訳(メタデータ) (2021-05-10T19:59:11Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。