Fugu-MT 論文翻訳(概要): OTS: A One-shot Learning Approach for Text Spotting in Historical Manuscripts

論文の概要: OTS: A One-shot Learning Approach for Text Spotting in Historical Manuscripts

arxiv url: http://arxiv.org/abs/2304.00746v3
Date: Fri, 19 Jan 2024 00:42:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 19:28:20.270500
Title: OTS: A One-shot Learning Approach for Text Spotting in Historical Manuscripts
Title（参考訳）: OTS: 歴史的文書におけるテキストスポッティングのワンショット学習手法
Authors: Wenbo Hu, Hongjian Zhan, Cong Liu, Bing Yin, Yue Lu
Abstract要約: 本稿では,1つの注釈付きサポートサンプルで新しい文字を正確に検出するワンショット学習ベースのテキストスポッティング(OTS)手法を提案する。利用可能なDBH,EGY,VML-HD,TKH,NCデータセットについて実験を行った。
参考スコア（独自算出の注目度）: 29.66338829384416
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the field of historical manuscript research, scholars frequently encounter novel symbols in ancient texts, investing considerable effort in their identification and documentation. Although some object detection methods have achieved impressive performance, they primarily excel at detecting categories included in training datasets, often failing to recognize novel symbols without retraining. To overcome this limitation, we propose a novel One-shot learning-based Text Spotting (OTS) approach that accurately and reliably spots novel characters with just one annotated support sample. Drawing inspiration from cognitive research, we introduce a spatial alignment module that finds, focuses on, and learns the most discriminative spatial regions in the query image based on one support image. Especially, since the low-resource spotting task often faces the problem of example imbalance, we propose a novel loss function called torus loss which can make the embedding space of distance metric more discriminative. Our approach is highly efficient and requires only a few training samples while exhibiting the remarkable ability to handle novel characters and symbols. To enhance dataset diversity, a new manuscript dataset that contains the ancient Dongba hieroglyphics (DBH) is created, a script associated with China and developed by the ancestors of the Naxi minority. We conduct experiments on publicly available DBH, EGY, VML-HD, TKH, and NC datasets. The experimental results demonstrate that OTS outperforms the state-of-the-art methods in one-shot text spotting. Overall, our proposed method offers promising applications in text spotting in historical manuscripts.
Abstract（参考訳）: 歴史写本研究の分野では、研究者は古代のテキストでしばしば新しいシンボルに遭遇し、その識別と文書化に多大な投資を行った。いくつかのオブジェクト検出手法は目覚ましい性能を達成しているが、トレーニングデータセットに含まれるカテゴリの検出に長けており、しばしば再トレーニングせずに新しいシンボルを認識できない。この制限を克服するために,1つの注釈付きサポートサンプルを用いて,新しい文字を正確かつ確実に発見する,one-shot learning-based text spotting (ots) アプローチを提案する。認知研究からインスピレーションを得た空間アライメントモジュールを導入し、一つの支援画像に基づいてクエリ画像の最も識別性の高い空間領域を探索し、注目し、学習する。特に,低リソーススポッティングタスクは,例えば不均衡の問題に直面することが多いため,距離計量の埋め込み空間をより識別可能な,トーラス損失と呼ばれる新しい損失関数を提案する。我々のアプローチは非常に効率的で、わずかなトレーニングサンプルしか必要とせず、新しい文字やシンボルを扱う素晴らしい能力を示しています。データセットの多様性を高めるために、古代ドンバ・ヒエログリフィクス(dbh)を含む新しい写本データセットが作成され、中国に関連するスクリプトがnaxi少数民族の祖先によって開発された。利用可能なDBH,EGY,VML-HD,TKH,NCデータセットについて実験を行った。実験の結果,OTSは1ショットテキストスポッティングにおいて最先端の手法よりも優れていた。提案手法は,歴史写本のテキストスポッティングにおける有望な応用を提供する。

関連論文リスト

Text-IRSTD: Leveraging Semantic Text to Promote Infrared Small Target Detection in Complex Scenes [3.399048100638418]
我々は,テキストIRSTDと呼ばれる赤外線小ターゲット検出のためのセマンティックテキストを活用した新しいアプローチを提案する。テキストと画像間の情報融合を容易にするために, プログレッシブ・モーダル・セマンティック・インタラクション・デコーダ (PCSID) を提案する。さらに,FZDTと呼ばれるファジィセマンティックテキストアノテーションを用いて,異なるシナリオの2,755個の赤外線画像からなる新しいベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-10T12:33:07Z)
Map2Text: New Content Generation from Low-Dimensional Visualizations [60.02149343347818]
低次元の可視化における空間座標を新しい、一貫性のある、正確に整列されたテキストコンテンツに変換する新しいタスクであるMap2Textを紹介する。これによってユーザは、これらの空間的レイアウトに埋め込まれた未発見情報を対話的に、直感的に探索し、ナビゲートすることができる。
論文参考訳（メタデータ） (2024-12-24T20:16:13Z)
LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文参考訳（メタデータ） (2024-05-29T15:35:09Z)
CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。 CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。視覚言語モデルの領域表現を効果的に強化することができる。
論文参考訳（メタデータ） (2023-12-18T17:39:47Z)
Direction-Oriented Visual-semantic Embedding Model for Remote Sensing Image-text Retrieval [7.118271398274512]
本稿では,視覚と言語の関係を考察するため,方向指向型ビジュアル・セマンティック・エンベディング・モデル(DOVE)を提案する。我々の目指すのは、潜在空間における視覚的およびテキスト的表現を極力近く、冗長性のない地域視覚表現に向けることである。我々は、単一の視覚的依存を減らすためにグローバルな視覚意味制約を利用し、最終的な視覚的およびテキスト的表現の外部制約として機能する。
論文参考訳（メタデータ） (2023-10-12T12:28:47Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)
Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文参考訳（メタデータ） (2022-11-27T14:47:31Z)
Spatial Reasoning for Few-Shot Object Detection [21.3564383157159]
本稿では,空間的推論フレームワークを提案する。グラフ畳み込みネットワークをRoIとその関連性はそれぞれノードとエッジとして定義する。提案手法は最先端の手法を著しく上回り, 広範囲なアブレーション研究により有効性を検証する。
論文参考訳（メタデータ） (2022-11-02T12:38:08Z)
Scene Graph Generation: A Comprehensive Survey [35.80909746226258]
シーングラフは、その強力な意味表現とシーン理解への応用から研究の焦点となっている。 SGG(Scene Graph Generation)とは、画像を自動的にセマンティックなシーングラフにマッピングするタスクである。本稿では,異なる入力モダリティをカバーする138の代表的な作品についてレビューし,既存の画像ベースSGGの手法を体系的に要約する。
論文参考訳（メタデータ） (2022-01-03T00:55:33Z)
Vectorization and Rasterization: Self-Supervised Learning for Sketch and Handwriting [168.91748514706995]
自己監督型機能学習のための2つの新しいクロスモーダル翻訳プリテキストタスクを提案する:ベクトル化とラスタリゼーション。当社の学習したエンコーダモジュールは、手書きデータを分析するために、ベースとベクターの両方のダウンストリームアプローチに役立ちます。
論文参考訳（メタデータ） (2021-03-25T09:47:18Z)
Exploring Bottom-up and Top-down Cues with Attentive Learning for Webly Supervised Object Detection [76.9756607002489]
本稿では,新しいクラスを対象としたWebSOD法を提案する。提案手法はボトムアップとトップダウンを組み合わせた新しいクラス検出手法である。提案手法は,3種類の新規/ベース分割を持つPASCAL VOCデータセット上で実証した。
論文参考訳（メタデータ） (2020-03-22T03:11:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。