論文の概要: Annotation-free Learning of Deep Representations for Word Spotting using
Synthetic Data and Self Labeling
- arxiv url: http://arxiv.org/abs/2003.01989v4
- Date: Mon, 25 May 2020 08:58:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 13:17:58.995473
- Title: Annotation-free Learning of Deep Representations for Word Spotting using
Synthetic Data and Self Labeling
- Title(参考訳): 合成データと自己ラベルを用いた単語スポッティングの深部表現のアノテーションなし学習
- Authors: Fabian Wolf and Gernot A. Fink
- Abstract要約: 我々は、まだ機械学習技術を使っているアノテーションなしの手法を提案する。
我々は最先端のクエリ・バイ・サンプルのパフォーマンスを実現する。
我々の手法ではクエリ・バイ・ストリングが可能であるが、他のアノテーションのないメソッドではそうではない。
- 参考スコア(独自算出の注目度): 4.111899441919165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word spotting is a popular tool for supporting the first exploration of
historic, handwritten document collections. Today, the best performing methods
rely on machine learning techniques, which require a high amount of annotated
training material. As training data is usually not available in the application
scenario, annotation-free methods aim at solving the retrieval task without
representative training samples. In this work, we present an annotation-free
method that still employs machine learning techniques and therefore outperforms
other learning-free approaches. The weakly supervised training scheme relies on
a lexicon, that does not need to precisely fit the dataset. In combination with
a confidence based selection of pseudo-labeled training samples, we achieve
state-of-the-art query-by-example performances. Furthermore, our method allows
to perform query-by-string, which is usually not the case for other
annotation-free methods.
- Abstract(参考訳): ワードスポッティング(word spotting)は、歴史ある手書きの文書コレクションを初めて探索するためのツールである。
現在、最高の実行方法は、大量の注釈付きトレーニング材料を必要とする機械学習技術に依存している。
トレーニングデータは通常、アプリケーションシナリオでは利用できないため、アノテーションなしのメソッドは、代表的なトレーニングサンプルなしで検索タスクを解決することを目的としている。
本稿では,まだ機械学習手法を活用し,それゆえ,他の学習フリーアプローチに勝るアノテーションフリー手法を提案する。
弱い教師付きトレーニングスキームは、データセットに正確に適合する必要がないレキシコンに依存している。
疑似ラベルトレーニングサンプルの信頼度に基づく選択と組み合わせて,最新のクエリ・バイ・サンプルのパフォーマンスを実現する。
さらに,この手法では,他のアノテーションフリーなメソッドでは一般的ではないクエリ・バイ・ストリングを行うことができる。
関連論文リスト
- Self-supervised Pre-training of Text Recognizers [0.0]
マスク付きラベル予測に基づく自己教師付き事前学習手法について検討する。
我々は、歴史的手書き(ベンサム)と歴史的印刷データセットの実験を行う。
評価の結果,対象領域からのデータの自己教師付き事前学習は非常に効果的であるが,近縁領域からの移行学習よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-01T09:58:57Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Unsupervised Few-shot Learning via Deep Laplacian Eigenmaps [13.6555672824229]
深層ラプラシア固有写像を用いた教師なし数ショット学習法を提案する。
本手法は,類似したサンプルをグループ化することで,ラベルのないデータから表現を学習する。
我々は、教師なし学習において、ラプラシアン固有写像が崩壊した表現をいかに避けるかを解析的に示す。
論文 参考訳(メタデータ) (2022-10-07T14:53:03Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - Active Self-Training for Weakly Supervised 3D Scene Semantic
Segmentation [17.27850877649498]
本稿では,自己学習と能動的学習を組み合わせた3次元シーンの弱教師付きセグメンテーション手法を提案する。
提案手法は,従来の作業やベースラインよりもシーンセグメンテーションを改善する効果的な手法であることを示す。
論文 参考訳(メタデータ) (2022-09-15T06:00:25Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Out-of-Scope Intent Detection with Self-Supervision and Discriminative
Training [20.242645823965145]
タスク指向対話システムにおいて、スコープ外インテント検出は実用上重要である。
本稿では,テストシナリオをシミュレートして,スコープ外インテント分類器をエンドツーエンドに学習する手法を提案する。
提案手法を4つのベンチマーク・ダイアログ・データセット上で広範囲に評価し,最先端のアプローチに対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-16T08:17:18Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Confident Coreset for Active Learning in Medical Image Analysis [57.436224561482966]
本稿では,情報的サンプルを効果的に選択するための,不確実性と分散性を考慮した新しい能動的学習手法である信頼コアセットを提案する。
2つの医用画像解析タスクの比較実験により,本手法が他の活動的学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-05T13:46:16Z) - Bootstrapping Weakly Supervised Segmentation-free Word Spotting through
HMM-based Alignment [0.5076419064097732]
ボックスアノテーションを行わずに書き起こしを利用して単語スポッティングモデルを訓練する手法を提案する。
これは、隠れマルコフモデルに基づいたトレーニング不要アライメント手順によって行われる。
デジタル転写データは、すでに多くの関心を集めている部分に対して存在するので、より一般的な単語スポッティングの活用に向けた大きな進歩であると考えています。
論文 参考訳(メタデータ) (2020-03-24T19:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。