論文の概要: Tiny CNN for feature point description for document analysis: approach
and dataset
- arxiv url: http://arxiv.org/abs/2109.04134v1
- Date: Thu, 9 Sep 2021 09:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:15:27.766880
- Title: Tiny CNN for feature point description for document analysis: approach
and dataset
- Title(参考訳): 文書分析のための特徴点記述のためのTiny CNN:アプローチとデータセット
- Authors: A. Sheshkus, A. Chirvonaya, V.L. Arlazarov
- Abstract要約: 本稿では,パッチ検索の訓練方法を用いたデータセットの構築と提供を行う。
軽量ニューラルネットワークをトレーニングすることで、このデータの有効性を証明し、ドキュメントと一般的なパッチマッチングの両方でどのように機能するかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of feature points description in the
context of document analysis and template matching. Our study shows that the
specific training data is required for the task especially if we are to train a
lightweight neural network that will be usable on devices with limited
computational resources. In this paper, we construct and provide a dataset with
a method of training patches retrieval. We prove the effectiveness of this data
by training a lightweight neural network and show how it performs in both
documents and general patches matching. The training was done on the provided
dataset in comparison with HPatches training dataset and for the testing we use
HPatches testing framework and two publicly available datasets with various
documents pictured on complex backgrounds: MIDV-500 and MIDV-2019.
- Abstract(参考訳): 本稿では,文書分析とテンプレートマッチングの文脈における特徴点記述の問題について検討する。
本研究は、特に計算資源の少ないデバイスで使用可能な軽量ニューラルネットワークを訓練する場合に、タスクに特定のトレーニングデータが必要であることを示す。
本稿では,パッチ検索の訓練方法を用いたデータセットの構築と提供を行う。
このデータの有効性を,軽量ニューラルネットワークのトレーニングにより証明し,文書と一般パッチのマッチングにおいてどのように機能するかを示す。
トレーニングは、提供されるデータセットとHPatchesトレーニングデータセットを比較して実施された。テストには、HPatchesテストフレームワークと、複雑な背景にさまざまなドキュメントが描かれた2つの公開データセット(MIDV-500とMIDV-2019)を使用します。
関連論文リスト
- IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset [6.633914491587503]
本稿では,Alpacaを用いた文脈検索学習データセットを提案する。
このデータセットを用いて、NERの関連するコンテキストを見つけることができるBERTモデルに基づいて、ニューラルネットワークコンテキストレトリバーをトレーニングする。
本手法は,40冊の本の第1章からなる英文データセットにおいて,NERタスクの検索ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T06:53:12Z) - CiT: Curation in Training for Effective Vision-Language Data [84.77867625605053]
本稿では,学習対象を学習対象とする視覚テキスト学習アルゴリズムであるCuration in Training (CiT)を提案する。
CiTは、コントラストのある画像テキストトレーニングを高速化するために、品質データを自動生成する。
我々は,特に生データサイズが大きい場合,CitTが1桁以上のトレーニングを高速化できることを観察した。
論文 参考訳(メタデータ) (2023-01-05T18:59:57Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。
我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文 参考訳(メタデータ) (2021-08-04T14:51:37Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - Vision-Based Layout Detection from Scientific Literature using Recurrent
Convolutional Neural Networks [12.221478896815292]
本稿では,オブジェクト認識と分類のための畳み込みニューラルネットワークを科学的文献レイアウト検出(SLLD)に適用するためのアプローチを提案する。
SLLDは、いくつかの情報抽出問題の共有サブタスクである。
その結果,事前学習ベースネットワークの微調整による改善が得られた。
論文 参考訳(メタデータ) (2020-10-18T23:50:28Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。