論文の概要: D\'etection d'Objets dans les documents num\'eris\'es par r\'eseaux de
neurones profonds
- arxiv url: http://arxiv.org/abs/2301.11753v1
- Date: Fri, 27 Jan 2023 14:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 15:19:07.739776
- Title: D\'etection d'Objets dans les documents num\'eris\'es par r\'eseaux de
neurones profonds
- Title(参考訳): D'etection d'Objets dans les documents num\'eris\'es par r'seaux de neurones profonds
- Authors: M\'elodie Boillet
- Abstract要約: 本研究では,テキスト行の検出,動作分割,筆記支援など,文書レイアウト解析に関連する複数のタスクについて検討する。
2つの異なるアプローチに従う2つのディープニューラルネットワークモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this thesis, we study multiple tasks related to document layout analysis
such as the detection of text lines, the splitting into acts or the detection
of the writing support. Thus, we propose two deep neural models following two
different approaches. We aim at proposing a model for object detection that
considers the difficulties associated with document processing, including the
limited amount of training data available.
In this respect, we propose a pixel-level detection model and a second
object-level detection model. We first propose a detection model with few
parameters, fast in prediction, and which can obtain accurate prediction masks
from a reduced number of training data. We implemented a strategy of collection
and uniformization of many datasets, which are used to train a single line
detection model that demonstrates high generalization capabilities to
out-of-sample documents.
We also propose a Transformer-based detection model. The design of such a
model required redefining the task of object detection in document images and
to study different approaches. Following this study, we propose an object
detection strategy consisting in sequentially predicting the coordinates of the
objects enclosing rectangles through a pixel classification. This strategy
allows obtaining a fast model with only few parameters.
Finally, in an industrial setting, new non-annotated data are often
available. Thus, in the case of a model adaptation to this new data, it is
expected to provide the system as few new annotated samples as possible. The
selection of relevant samples for manual annotation is therefore crucial to
enable successful adaptation. For this purpose, we propose confidence
estimators from different approaches for object detection. We show that these
estimators greatly reduce the amount of annotated data while optimizing the
performances.
- Abstract(参考訳): 本論文では,テキスト行の検出,動作分割,書き込みサポートの検出など,文書レイアウト解析に関連する複数のタスクについて検討する。
そこで本研究では,2つの異なるアプローチによる深層神経モデルを提案する。
我々は、利用可能な限られたトレーニングデータを含む文書処理に関する困難を考慮し、オブジェクト検出のためのモデルを提案することを目的としている。
本稿では,画素レベル検出モデルと2番目のオブジェクトレベル検出モデルを提案する。
まず,パラメータが少なく,予測が高速で,トレーニングデータの少ない精度で予測マスクが得られる検出モデルを提案する。
我々は,多くのデータセットの収集・統一戦略を実装し,サンプル外文書への高一般化能力を示す単一行検出モデルの訓練に利用した。
また,変圧器に基づく検出モデルを提案する。
このようなモデルの設計では、文書画像のオブジェクト検出のタスクを再定義し、異なるアプローチを研究する必要があった。
本研究では,長方形を囲む物体の座標を画素分類により逐次予測する物体検出手法を提案する。
この戦略により、パラメータの少ない高速モデルが得られる。
最後に、産業環境では、注釈のない新しいデータがしばしば利用できる。
したがって、この新しいデータにモデルを適用する場合、できるだけ新しいアノテートされたサンプルをシステムに提供することが期待されている。
そのため、手動アノテーションに関するサンプルの選択は、適応を成功させるために重要である。
この目的のために,物体検出のための異なるアプローチによる信頼度推定器を提案する。
これらの推定器は、性能を最適化しながら、注釈付きデータ量を大幅に削減する。
関連論文リスト
- Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Towards Few-Annotation Learning for Object Detection: Are
Transformer-based Models More Efficient ? [11.416621957617334]
本稿では,現在最先端のオブジェクト検出器であるDeformable DETRに適した半教師付き手法を提案する。
本手法はCOCOとPascal VOCの半教師付きオブジェクト検出ベンチマークで評価し,特にアノテーションが少ない場合,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-30T18:51:25Z) - Data-Free Model Extraction Attacks in the Context of Object Detection [0.6719751155411076]
多くの機械学習モデルは、モデル抽出攻撃に対して脆弱である。
本研究では,オブジェクト検出における境界ボックス座標の予測のための回帰問題に拡張した逆ブラックボックス攻撃を提案する。
提案したモデル抽出法は,妥当なクエリを用いて有意な結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-08-09T06:23:54Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Few-shot Object Detection on Remote Sensing Images [11.40135025181393]
リモートセンシング画像におけるオブジェクト検出のための数ショットの学習手法を提案する。
我々は、YOLOv3アーキテクチャに基づいて、少数ショットオブジェクト検出モデルを構築し、マルチスケールオブジェクト検出フレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-14T07:18:10Z) - Learning a Unified Sample Weighting Network for Object Detection [113.98404690619982]
地域サンプリングや重み付けは、現代の地域ベースの物体検出器の成功に極めて重要である。
サンプル重み付けはデータ依存でタスク依存であるべきだと我々は主張する。
サンプルのタスク重みを予測するための統一的なサンプル重み付けネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-11T16:19:16Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - Incremental Few-Shot Object Detection [96.02543873402813]
OpeN-ended Centre nEtは、いくつかの例でクラスオブジェクトの検出を漸進的に学習する検出器である。
ONCEはインクリメンタルな学習パラダイムを十分に尊重しており、新しいクラス登録では、数発のトレーニングサンプルを1回だけフォワードパスするだけでよい。
論文 参考訳(メタデータ) (2020-03-10T12:56:59Z) - CONSAC: Robust Multi-Model Fitting by Conditional Sample Consensus [62.86856923633923]
我々は,同じ形状の複数のパラメトリックモデルを雑音測定に適合させる頑健な推定器を提案する。
複数のモデル検出のための手作り検索戦略を利用する従来の研究とは対照的に,データから検索戦略を学習する。
探索の自己教師付き学習において,提案したアルゴリズムをマルチホログラフィー推定で評価し,最先端手法よりも優れた精度を示す。
論文 参考訳(メタデータ) (2020-01-08T17:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。