論文の概要: Visual Semantics Allow for Textual Reasoning Better in Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2112.12916v1
- Date: Fri, 24 Dec 2021 02:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 14:17:47.345819
- Title: Visual Semantics Allow for Textual Reasoning Better in Scene Text
Recognition
- Title(参考訳): シーンのテキスト認識に優れたテキスト推論を可能にするビジュアルセマンティクス
- Authors: Yue He, Chen Chen, Jing Zhang, Juhua Liu, Fengxiang He, Chaoyue Wang,
Bo Du
- Abstract要約: 本稿では,視覚的意味論に基づくテキスト推論を初めて試みる。
我々は、テキスト推論(GTR)のためのグラフ畳み込みネットワークを、クロスエントロピー損失で監視することによって考案する。
S-GTRは6つのSTRベンチマークに新しい最先端をセットし、多言語データセットに最適化する。
- 参考スコア(独自算出の注目度): 46.83992441581874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Scene Text Recognition (STR) methods typically use a language model
to optimize the joint probability of the 1D character sequence predicted by a
visual recognition (VR) model, which ignore the 2D spatial context of visual
semantics within and between character instances, making them not generalize
well to arbitrary shape scene text. To address this issue, we make the first
attempt to perform textual reasoning based on visual semantics in this paper.
Technically, given the character segmentation maps predicted by a VR model, we
construct a subgraph for each instance, where nodes represent the pixels in it
and edges are added between nodes based on their spatial similarity. Then,
these subgraphs are sequentially connected by their root nodes and merged into
a complete graph. Based on this graph, we devise a graph convolutional network
for textual reasoning (GTR) by supervising it with a cross-entropy loss. GTR
can be easily plugged in representative STR models to improve their performance
owing to better textual reasoning. Specifically, we construct our model, namely
S-GTR, by paralleling GTR to the language model in a segmentation-based STR
baseline, which can effectively exploit the visual-linguistic complementarity
via mutual learning. S-GTR sets new state-of-the-art on six challenging STR
benchmarks and generalizes well to multi-linguistic datasets. Code is available
at https://github.com/adeline-cs/GTR.
- Abstract(参考訳): 既存のシーンテキスト認識(str)手法は、典型的には言語モデルを使用して、視覚認識(vr)モデルによって予測される1d文字系列の結合確率を最適化する。
この問題に対処するため,本論文では,視覚意味論に基づくテキスト推論を初めて試みる。
技術的には、vrモデルによって予測される文字分割マップを考えると、各インスタンスにサブグラフを構築し、ノードがその中のピクセルを表し、ノード間のエッジはその空間的類似性に基づいて追加される。
その後、これらの部分グラフはルートノードによって順次接続され、完全なグラフにマージされる。
このグラフに基づいて,テキスト推論(GTR)のためのグラフ畳み込みネットワークを考案し,これをクロスエントロピー損失で監視する。
GTRは、テキスト推論の改善によるパフォーマンス向上のために、代表STRモデルに簡単にプラグインできる。
具体的には,セグメンテーションベースのSTRベースラインでGTRを言語モデルに並列化することで,S-GTRというモデルを構築し,相互学習による視覚言語的相補性を効果的に活用する。
S-GTRは6つのSTRベンチマークに新しい最先端をセットし、多言語データセットに最適化する。
コードはhttps://github.com/adeline-cs/GTRで入手できる。
関連論文リスト
- A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
我々は,テキストイメージ理解をガイドする軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
IGTRは、小さなモデルサイズと効率的な推論速度を維持しながら、既存のモデルをかなりの差で上回っている。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - StrokeNet: Stroke Assisted and Hierarchical Graph Reasoning Networks [31.76016966100244]
StrokeNetは、きめ細かいストロークをキャプチャすることで、テキストを効果的に検出する。
テキスト領域を一連のポイントや長方形のボックスで表現する既存のアプローチとは異なり、各テキストインスタンスのストロークを直接ローカライズする。
論文 参考訳(メタデータ) (2021-11-23T08:26:42Z) - R2D2: Relational Text Decoding with Transformers [18.137828323277347]
グラフ構造とそれらのノードとエッジに関連付けられた自然言語テキストとの相互作用をモデル化する新しいフレームワークを提案する。
提案手法は,グラフィカル構造とテキストのシーケンシャルな性質の両方を利用する。
提案モデルには幅広い応用があるが,データ・テキスト生成タスクにおけるその機能を示す。
論文 参考訳(メタデータ) (2021-05-10T19:59:11Z) - Spatial-spectral Hyperspectral Image Classification via Multiple Random
Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。
まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。
次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文 参考訳(メタデータ) (2021-03-25T09:31:41Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Graph Optimal Transport for Cross-Domain Alignment [121.80313648519203]
クロスドメインアライメントはコンピュータビジョンと自然言語処理の基本である。
我々は、最近の最適輸送(OT)の進歩から発芽する原則的なフレームワークであるグラフ最適輸送(GOT)を提案する。
実験は、幅広いタスクにわたるベースライン上でのGOTの一貫性のある性能を示す。
論文 参考訳(メタデータ) (2020-06-26T01:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。