論文の概要: OTS: A One-shot Learning Approach for Text Spotting in Historical
Manuscripts
- arxiv url: http://arxiv.org/abs/2304.00746v3
- Date: Fri, 19 Jan 2024 00:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 19:28:20.270500
- Title: OTS: A One-shot Learning Approach for Text Spotting in Historical
Manuscripts
- Title(参考訳): OTS: 歴史的文書におけるテキストスポッティングのワンショット学習手法
- Authors: Wenbo Hu, Hongjian Zhan, Cong Liu, Bing Yin, Yue Lu
- Abstract要約: 本稿では,1つの注釈付きサポートサンプルで新しい文字を正確に検出するワンショット学習ベースのテキストスポッティング(OTS)手法を提案する。
利用可能なDBH,EGY,VML-HD,TKH,NCデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 29.66338829384416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of historical manuscript research, scholars frequently encounter
novel symbols in ancient texts, investing considerable effort in their
identification and documentation. Although some object detection methods have
achieved impressive performance, they primarily excel at detecting categories
included in training datasets, often failing to recognize novel symbols without
retraining. To overcome this limitation, we propose a novel One-shot
learning-based Text Spotting (OTS) approach that accurately and reliably spots
novel characters with just one annotated support sample. Drawing inspiration
from cognitive research, we introduce a spatial alignment module that finds,
focuses on, and learns the most discriminative spatial regions in the query
image based on one support image. Especially, since the low-resource spotting
task often faces the problem of example imbalance, we propose a novel loss
function called torus loss which can make the embedding space of distance
metric more discriminative. Our approach is highly efficient and requires only
a few training samples while exhibiting the remarkable ability to handle novel
characters and symbols. To enhance dataset diversity, a new manuscript dataset
that contains the ancient Dongba hieroglyphics (DBH) is created, a script
associated with China and developed by the ancestors of the Naxi minority. We
conduct experiments on publicly available DBH, EGY, VML-HD, TKH, and NC
datasets. The experimental results demonstrate that OTS outperforms the
state-of-the-art methods in one-shot text spotting. Overall, our proposed
method offers promising applications in text spotting in historical
manuscripts.
- Abstract(参考訳): 歴史写本研究の分野では、研究者は古代のテキストでしばしば新しいシンボルに遭遇し、その識別と文書化に多大な投資を行った。
いくつかのオブジェクト検出手法は目覚ましい性能を達成しているが、トレーニングデータセットに含まれるカテゴリの検出に長けており、しばしば再トレーニングせずに新しいシンボルを認識できない。
この制限を克服するために,1つの注釈付きサポートサンプルを用いて,新しい文字を正確かつ確実に発見する,one-shot learning-based text spotting (ots) アプローチを提案する。
認知研究からインスピレーションを得た空間アライメントモジュールを導入し、一つの支援画像に基づいてクエリ画像の最も識別性の高い空間領域を探索し、注目し、学習する。
特に,低リソーススポッティングタスクは,例えば不均衡の問題に直面することが多いため,距離計量の埋め込み空間をより識別可能な,トーラス損失と呼ばれる新しい損失関数を提案する。
我々のアプローチは非常に効率的で、わずかなトレーニングサンプルしか必要とせず、新しい文字やシンボルを扱う素晴らしい能力を示しています。
データセットの多様性を高めるために、古代ドンバ・ヒエログリフィクス(dbh)を含む新しい写本データセットが作成され、中国に関連するスクリプトがnaxi少数民族の祖先によって開発された。
利用可能なDBH,EGY,VML-HD,TKH,NCデータセットについて実験を行った。
実験の結果,OTSは1ショットテキストスポッティングにおいて最先端の手法よりも優れていた。
提案手法は,歴史写本のテキストスポッティングにおける有望な応用を提供する。
関連論文リスト
- MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - A Unified Evaluation Framework for Novelty Detection and Accommodation
in NLP with an Instantiation in Authorship Attribution [25.52598351435189]
本稿では,パイプライン化された新規性「検出」タスクと「調節」タスクにおいて,システムの性能を評価するマルチステージタスクである「NoveltyTask」を紹介する。
我々はAmazonのレビューコーパスを使用して、NovetyTaskのために大規模なデータセット(200人の著者/ラベルで250万インスタンスで構成されています)をコンパイルします。
論文 参考訳(メタデータ) (2023-05-08T22:37:30Z) - The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文 参考訳(メタデータ) (2023-02-03T11:17:59Z) - Revisiting the Roles of "Text" in Text Games [102.22750109468652]
本稿では,強化学習におけるテキストの役割について検討する。
本稿では,関連するコンテキスト情報を近似状態ハッシュに抽出する簡単な手法を提案する。
このような軽量なプラグインは最先端のテキストエージェントとの競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T21:52:39Z) - A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文 参考訳(メタデータ) (2022-09-21T15:35:02Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - Vectorization and Rasterization: Self-Supervised Learning for Sketch and
Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。
当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文 参考訳(メタデータ) (2021-03-25T09:47:18Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。