論文の概要: OTS: A One-shot Learning Approach for Text Spotting in Historical
Manuscripts
- arxiv url: http://arxiv.org/abs/2304.00746v1
- Date: Mon, 3 Apr 2023 06:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 16:25:31.667621
- Title: OTS: A One-shot Learning Approach for Text Spotting in Historical
Manuscripts
- Title(参考訳): OTS: 歴史的文書におけるテキストスポッティングのワンショット学習手法
- Authors: Wen-Bo Hu, Hong-Jian Zhan, Cong Liu, Bing Yin, Yue Lu
- Abstract要約: 本稿では,1つの注釈付きサポートサンプルで新しい文字を正確に検出するワンショット学習ベースのテキストスポッティング(OTS)手法を提案する。
データセットの多様性を高めるために、古代のドンバヒエログリフィクス(DBH)を含む新しい原稿データセットを作成する。
我々は、利用可能なVML-HD、TKH、NCデータセット、新しいDBHデータセットについて実験を行う。
- 参考スコア(独自算出の注目度): 18.10347193339144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Historical manuscript processing poses challenges like limited annotated
training data and novel class emergence. To address this, we propose a novel
One-shot learning-based Text Spotting (OTS) approach that accurately and
reliably spots novel characters with just one annotated support sample. Drawing
inspiration from cognitive research, we introduce a spatial alignment module
that finds, focuses on, and learns the most discriminative spatial regions in
the query image based on one support image. Especially, since the low-resource
spotting task often faces the problem of example imbalance, we propose a novel
loss function called torus loss which can make the embedding space of distance
metric more discriminative. Our approach is highly efficient and requires only
a few training samples while exhibiting the remarkable ability to handle novel
characters, and symbols. To enhance dataset diversity, a new manuscript dataset
that contains the ancient Dongba hieroglyphics (DBH) is created. We conduct
experiments on publicly available VML-HD, TKH, NC datasets, and the new
proposed DBH dataset. The experimental results demonstrate that OTS outperforms
the state-of-the-art methods in one-shot text spotting. Overall, our proposed
method offers promising applications in the field of text spotting in
historical manuscripts.
- Abstract(参考訳): 歴史文書処理は、限定的な注釈付きトレーニングデータや新しいクラスの出現といった課題を提起する。
そこで本研究では,新しい文字を1つの注釈付きサポートサンプルで正確にかつ確実に検出する,ワンショット学習ベースのテキストスポッティング(OTS)手法を提案する。
認知研究からインスピレーションを得た空間アライメントモジュールを導入し、一つの支援画像に基づいてクエリ画像の最も識別性の高い空間領域を探索し、注目し、学習する。
特に,低リソーススポッティングタスクは,例えば不均衡の問題に直面することが多いため,距離計量の埋め込み空間をより識別可能な,トーラス損失と呼ばれる新しい損失関数を提案する。
我々のアプローチは非常に効率的で、わずかなトレーニングサンプルしか必要とせず、新しい文字やシンボルを扱う素晴らしい能力を示しています。
データセットの多様性を高めるために、古代ドンバヒエログリフィクス(dbh)を含む新しい写本データセットを作成する。
我々は、利用可能なVML-HD、TKH、NCデータセット、新しいDBHデータセットについて実験を行う。
実験の結果,OTSは1ショットテキストスポッティングにおいて最先端の手法よりも優れていた。
提案手法は,歴史写本のテキストスポッティング分野における有望な応用を提供する。
関連論文リスト
- LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Direction-Oriented Visual-semantic Embedding Model for Remote Sensing Image-text Retrieval [7.118271398274512]
本稿では,視覚と言語の関係を考察するため,方向指向型ビジュアル・セマンティック・エンベディング・モデル(DOVE)を提案する。
我々の目指すのは、潜在空間における視覚的およびテキスト的表現を極力近く、冗長性のない地域視覚表現に向けることである。
我々は、単一の視覚的依存を減らすためにグローバルな視覚意味制約を利用し、最終的な視覚的およびテキスト的表現の外部制約として機能する。
論文 参考訳(メタデータ) (2023-10-12T12:28:47Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Spatial Reasoning for Few-Shot Object Detection [21.3564383157159]
本稿では,空間的推論フレームワークを提案する。
グラフ畳み込みネットワークをRoIとその関連性はそれぞれノードとエッジとして定義する。
提案手法は最先端の手法を著しく上回り, 広範囲なアブレーション研究により有効性を検証する。
論文 参考訳(メタデータ) (2022-11-02T12:38:08Z) - Scene Graph Generation: A Comprehensive Survey [35.80909746226258]
シーングラフは、その強力な意味表現とシーン理解への応用から研究の焦点となっている。
SGG(Scene Graph Generation)とは、画像を自動的にセマンティックなシーングラフにマッピングするタスクである。
本稿では,異なる入力モダリティをカバーする138の代表的な作品についてレビューし,既存の画像ベースSGGの手法を体系的に要約する。
論文 参考訳(メタデータ) (2022-01-03T00:55:33Z) - Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文 参考訳(メタデータ) (2021-03-25T09:47:18Z) - Exploring Bottom-up and Top-down Cues with Attentive Learning for Webly
Supervised Object Detection [76.9756607002489]
本稿では,新しいクラスを対象としたWebSOD法を提案する。
提案手法はボトムアップとトップダウンを組み合わせた新しいクラス検出手法である。
提案手法は,3種類の新規/ベース分割を持つPASCAL VOCデータセット上で実証した。
論文 参考訳(メタデータ) (2020-03-22T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。