論文の概要: OTS: A One-shot Learning Approach for Text Spotting in Historical
Manuscripts
- arxiv url: http://arxiv.org/abs/2304.00746v3
- Date: Fri, 19 Jan 2024 00:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:28:20.270500
- Title: OTS: A One-shot Learning Approach for Text Spotting in Historical
Manuscripts
- Title(参考訳): OTS: 歴史的文書におけるテキストスポッティングのワンショット学習手法
- Authors: Wenbo Hu, Hongjian Zhan, Cong Liu, Bing Yin, Yue Lu
- Abstract要約: 本稿では,1つの注釈付きサポートサンプルで新しい文字を正確に検出するワンショット学習ベースのテキストスポッティング(OTS)手法を提案する。
利用可能なDBH,EGY,VML-HD,TKH,NCデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 29.66338829384416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of historical manuscript research, scholars frequently encounter
novel symbols in ancient texts, investing considerable effort in their
identification and documentation. Although some object detection methods have
achieved impressive performance, they primarily excel at detecting categories
included in training datasets, often failing to recognize novel symbols without
retraining. To overcome this limitation, we propose a novel One-shot
learning-based Text Spotting (OTS) approach that accurately and reliably spots
novel characters with just one annotated support sample. Drawing inspiration
from cognitive research, we introduce a spatial alignment module that finds,
focuses on, and learns the most discriminative spatial regions in the query
image based on one support image. Especially, since the low-resource spotting
task often faces the problem of example imbalance, we propose a novel loss
function called torus loss which can make the embedding space of distance
metric more discriminative. Our approach is highly efficient and requires only
a few training samples while exhibiting the remarkable ability to handle novel
characters and symbols. To enhance dataset diversity, a new manuscript dataset
that contains the ancient Dongba hieroglyphics (DBH) is created, a script
associated with China and developed by the ancestors of the Naxi minority. We
conduct experiments on publicly available DBH, EGY, VML-HD, TKH, and NC
datasets. The experimental results demonstrate that OTS outperforms the
state-of-the-art methods in one-shot text spotting. Overall, our proposed
method offers promising applications in text spotting in historical
manuscripts.
- Abstract(参考訳): 歴史写本研究の分野では、研究者は古代のテキストでしばしば新しいシンボルに遭遇し、その識別と文書化に多大な投資を行った。
いくつかのオブジェクト検出手法は目覚ましい性能を達成しているが、トレーニングデータセットに含まれるカテゴリの検出に長けており、しばしば再トレーニングせずに新しいシンボルを認識できない。
この制限を克服するために,1つの注釈付きサポートサンプルを用いて,新しい文字を正確かつ確実に発見する,one-shot learning-based text spotting (ots) アプローチを提案する。
認知研究からインスピレーションを得た空間アライメントモジュールを導入し、一つの支援画像に基づいてクエリ画像の最も識別性の高い空間領域を探索し、注目し、学習する。
特に,低リソーススポッティングタスクは,例えば不均衡の問題に直面することが多いため,距離計量の埋め込み空間をより識別可能な,トーラス損失と呼ばれる新しい損失関数を提案する。
我々のアプローチは非常に効率的で、わずかなトレーニングサンプルしか必要とせず、新しい文字やシンボルを扱う素晴らしい能力を示しています。
データセットの多様性を高めるために、古代ドンバ・ヒエログリフィクス(dbh)を含む新しい写本データセットが作成され、中国に関連するスクリプトがnaxi少数民族の祖先によって開発された。
利用可能なDBH,EGY,VML-HD,TKH,NCデータセットについて実験を行った。
実験の結果,OTSは1ショットテキストスポッティングにおいて最先端の手法よりも優れていた。
提案手法は,歴史写本のテキストスポッティングにおける有望な応用を提供する。
関連論文リスト
- LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Direction-Oriented Visual-semantic Embedding Model for Remote Sensing Image-text Retrieval [7.118271398274512]
本稿では,視覚と言語の関係を考察するため,方向指向型ビジュアル・セマンティック・エンベディング・モデル(DOVE)を提案する。
我々の目指すのは、潜在空間における視覚的およびテキスト的表現を極力近く、冗長性のない地域視覚表現に向けることである。
我々は、単一の視覚的依存を減らすためにグローバルな視覚意味制約を利用し、最終的な視覚的およびテキスト的表現の外部制約として機能する。
論文 参考訳(メタデータ) (2023-10-12T12:28:47Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Spatial Reasoning for Few-Shot Object Detection [21.3564383157159]
本稿では,空間的推論フレームワークを提案する。
グラフ畳み込みネットワークをRoIとその関連性はそれぞれノードとエッジとして定義する。
提案手法は最先端の手法を著しく上回り, 広範囲なアブレーション研究により有効性を検証する。
論文 参考訳(メタデータ) (2022-11-02T12:38:08Z) - Scene Graph Generation: A Comprehensive Survey [35.80909746226258]
シーングラフは、その強力な意味表現とシーン理解への応用から研究の焦点となっている。
SGG(Scene Graph Generation)とは、画像を自動的にセマンティックなシーングラフにマッピングするタスクである。
本稿では,異なる入力モダリティをカバーする138の代表的な作品についてレビューし,既存の画像ベースSGGの手法を体系的に要約する。
論文 参考訳(メタデータ) (2022-01-03T00:55:33Z) - Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文 参考訳(メタデータ) (2021-03-25T09:47:18Z) - Exploring Bottom-up and Top-down Cues with Attentive Learning for Webly
Supervised Object Detection [76.9756607002489]
本稿では,新しいクラスを対象としたWebSOD法を提案する。
提案手法はボトムアップとトップダウンを組み合わせた新しいクラス検出手法である。
提案手法は,3種類の新規/ベース分割を持つPASCAL VOCデータセット上で実証した。
論文 参考訳(メタデータ) (2020-03-22T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。