論文の概要: VGTS: Visually Guided Text Spotting for Novel Categories in Historical Manuscripts
- arxiv url: http://arxiv.org/abs/2304.00746v4
- Date: Fri, 29 Mar 2024 13:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:56:17.106291
- Title: VGTS: Visually Guided Text Spotting for Novel Categories in Historical Manuscripts
- Title(参考訳): VGTS: 歴史文書における新しいカテゴリのためのビジュアルガイド付きテキストスポッティング
- Authors: Wenbo Hu, Hongjian Zhan, Xinchen Ma, Cong Liu, Bing Yin, Yue Lu,
- Abstract要約: 本稿では,1つの注釈付きサポートサンプルを用いて,新しい文字を正確に検出するビジュアルガイドテキストスポッティング(VGTS)手法を提案する。
DSAブロックは、人間の視覚的スポッティングプロセスを模倣して、サポート画像とクエリ画像における識別的空間領域を特定し、焦点を合わせ、学習することを目的としている。
低リソーススポッティングタスクにおける例不均衡問題に対処するため,距離メトリック学習のための埋め込み空間の識別力を高める新しいトーラス損失関数を開発した。
- 参考スコア(独自算出の注目度): 26.09365732823049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of historical manuscript research, scholars frequently encounter novel symbols in ancient texts, investing considerable effort in their identification and documentation. Although existing object detection methods achieve impressive performance on known categories, they struggle to recognize novel symbols without retraining. To address this limitation, we propose a Visually Guided Text Spotting (VGTS) approach that accurately spots novel characters using just one annotated support sample. The core of VGTS is a spatial alignment module consisting of a Dual Spatial Attention (DSA) block and a Geometric Matching (GM) block. The DSA block aims to identify, focus on, and learn discriminative spatial regions in the support and query images, mimicking the human visual spotting process. It first refines the support image by analyzing inter-channel relationships to identify critical areas, and then refines the query image by focusing on informative key points. The GM block, on the other hand, establishes the spatial correspondence between the two images, enabling accurate localization of the target character in the query image. To tackle the example imbalance problem in low-resource spotting tasks, we develop a novel torus loss function that enhances the discriminative power of the embedding space for distance metric learning. To further validate our approach, we introduce a new dataset featuring ancient Dongba hieroglyphics (DBH) associated with the Naxi minority of China. Extensive experiments on the DBH dataset and other public datasets, including EGY, VML-HD, TKH, and NC, show that VGTS consistently surpasses state-of-the-art methods. The proposed framework exhibits great potential for application in historical manuscript text spotting, enabling scholars to efficiently identify and document novel symbols with minimal annotation effort.
- Abstract(参考訳): 歴史写本研究の分野では、学者は古代の文献でしばしば新しいシンボルに遭遇し、その識別と文書化に多大な努力を払っている。
既存の物体検出手法は、既知のカテゴリにおいて印象的な性能を発揮するが、新しいシンボルを再訓練せずに認識することは困難である。
この制限に対処するために,1つの注釈付きサポートサンプルを用いて,新しい文字を正確に検出するビジュアルガイドテキストスポッティング(VGTS)手法を提案する。
VGTSのコアは、デュアル空間アテンション(DSA)ブロックと幾何マッチング(GM)ブロックからなる空間アライメントモジュールである。
DSAブロックは、人間の視覚的スポッティングプロセスを模倣して、サポート画像とクエリ画像における識別的空間領域を特定し、焦点を合わせ、学習することを目的としている。
まず,重要な領域を特定するためにチャネル間関係を解析してサポート画像を洗練し,情報的キーポイントに着目してクエリ画像を洗練する。
一方、GMブロックは、2つの画像間の空間対応を確立し、クエリ画像中のターゲットキャラクタの正確な位置決めを可能にする。
低リソーススポッティングタスクにおける例不均衡問題に対処するため,距離メトリック学習のための埋め込み空間の識別力を高める新しいトーラス損失関数を開発した。
われわれのアプローチをさらに検証するため,中国南亜少数民族と関連する古東亜ヒエログリフィクス(DBH)を特徴とする新しいデータセットを導入した。
DBHデータセットと、EGY、VML-HD、TKH、NCを含む他の公開データセットに関する大規模な実験は、VGTSが一貫して最先端のメソッドを超越していることを示している。
提案フレームワークは,歴史写本のテキストスポッティングに適用可能な可能性を示し,最小限のアノテーションで新規シンボルを効率よく識別し,文書化することができる。
関連論文リスト
- LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Direction-Oriented Visual-semantic Embedding Model for Remote Sensing
Image-text Retrieval [8.00022369501487]
本稿では,視覚と言語の関係を考察するため,方向指向型ビジュアル・セマンティック・エンベディング・モデル(DOVE)を提案する。
我々の目指すのは、潜在空間における視覚的およびテキスト的表現を極力近く、冗長性のない地域視覚表現に向けることである。
我々は、単一の視覚的依存を減らすためにグローバルな視覚意味制約を利用し、最終的な視覚的およびテキスト的表現の外部制約として機能する。
論文 参考訳(メタデータ) (2023-10-12T12:28:47Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Spatial Reasoning for Few-Shot Object Detection [21.3564383157159]
本稿では,空間的推論フレームワークを提案する。
グラフ畳み込みネットワークをRoIとその関連性はそれぞれノードとエッジとして定義する。
提案手法は最先端の手法を著しく上回り, 広範囲なアブレーション研究により有効性を検証する。
論文 参考訳(メタデータ) (2022-11-02T12:38:08Z) - Scene Graph Generation: A Comprehensive Survey [35.80909746226258]
シーングラフは、その強力な意味表現とシーン理解への応用から研究の焦点となっている。
SGG(Scene Graph Generation)とは、画像を自動的にセマンティックなシーングラフにマッピングするタスクである。
本稿では,異なる入力モダリティをカバーする138の代表的な作品についてレビューし,既存の画像ベースSGGの手法を体系的に要約する。
論文 参考訳(メタデータ) (2022-01-03T00:55:33Z) - Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文 参考訳(メタデータ) (2021-03-25T09:47:18Z) - Exploring Bottom-up and Top-down Cues with Attentive Learning for Webly
Supervised Object Detection [76.9756607002489]
本稿では,新しいクラスを対象としたWebSOD法を提案する。
提案手法はボトムアップとトップダウンを組み合わせた新しいクラス検出手法である。
提案手法は,3種類の新規/ベース分割を持つPASCAL VOCデータセット上で実証した。
論文 参考訳(メタデータ) (2020-03-22T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。