論文の概要: OLALA: Object-Level Active Learning for Efficient Document Layout
Annotation
- arxiv url: http://arxiv.org/abs/2010.01762v3
- Date: Mon, 29 Mar 2021 19:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:53:50.638026
- Title: OLALA: Object-Level Active Learning for Efficient Document Layout
Annotation
- Title(参考訳): OLALA: 効率的なドキュメントレイアウトアノテーションのためのオブジェクトレベルアクティブラーニング
- Authors: Zejiang Shen, Jian Zhao, Melissa Dell, Yaoliang Yu, Weining Li
- Abstract要約: 本稿では,効率的な文書レイアウトのためのオブジェクトレベルアクティブラーニングフレームワークを提案する。
このフレームワークでは、アノテータにラベルを付けるために、画像内で最も曖昧なオブジェクト予測を行う領域のみが選択される。
選択されていない予測に対して,レイアウト構造に関する事前の知識に基づいて,半自動補正アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 24.453873808984415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document images often have intricate layout structures, with numerous content
regions (e.g. texts, figures, tables) densely arranged on each page. This makes
the manual annotation of layout datasets expensive and inefficient. These
characteristics also challenge existing active learning methods, as image-level
scoring and selection suffer from the overexposure of common objects.Inspired
by recent progresses in semi-supervised learning and self-training, we propose
an Object-Level Active Learning framework for efficient document layout
Annotation, OLALA. In this framework, only regions with the most ambiguous
object predictions within an image are selected for annotators to label,
optimizing the use of the annotation budget. For unselected predictions, the
semi-automatic correction algorithm is proposed to identify certain errors
based on prior knowledge of layout structures and rectifies them with minor
supervision. Additionally, we carefully design a perturbation-based object
scoring function for document images. It governs the object selection process
via evaluating prediction ambiguities, and considers both the positions and
categories of predicted layout objects. Extensive experiments show that OLALA
can significantly boost model performance and improve annotation efficiency,
given the same labeling budget. Code for this paper can be accessed via
https://github.com/lolipopshock/detectron2_al.
- Abstract(参考訳): 文書画像はしばしば複雑なレイアウト構造を持ち、各ページに多数のコンテンツ領域(テキスト、図形、テーブルなど)が密に配置されている。
これにより、レイアウトデータセットのマニュアルアノテーションが高価で非効率になる。
これらの特徴は、画像レベルのスコアリングと選択が共通のオブジェクトの過剰露出に悩まされるなど、既存のアクティブラーニング手法にも挑戦し、半教師付き学習と自己学習の最近の進歩から着想を得て、効率的な文書レイアウトアノテーション(OLALA)のためのオブジェクトレベルアクティブラーニングフレームワークを提案する。
このフレームワークでは、アノテーション予算の使用を最適化し、注釈子にラベル付けするために、画像内の最もあいまいなオブジェクト予測を持つ領域のみを選択する。
選択されていない予測に対しては,レイアウト構造に関する事前の知識に基づいて,半自動補正アルゴリズムが提案される。
さらに,文書画像の摂動に基づくオブジェクトスコアリング機能を慎重に設計する。
予測曖昧性を評価することによってオブジェクト選択プロセスを制御し、予測されたレイアウトオブジェクトの位置とカテゴリの両方を考慮する。
大規模な実験により、OLALAはモデルの性能を大幅に向上させ、アノテーションの効率を向上できることが示された。
この論文のコードはhttps://github.com/lolipopshock/detectron2_alでアクセスできる。
関連論文リスト
- GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - The Weak Supervision Landscape [5.186945902380689]
弱い監督設定を分類する枠組みを提案する。
我々は、弱い監督を特徴付ける重要な要素を特定し、既存のアプローチのほとんどを分類する一連の次元を考案する。
文献における一般的な設定がフレームワークにどのように適合するかを示し、実際に使用可能な使用法について議論する。
論文 参考訳(メタデータ) (2022-03-30T13:19:43Z) - Assisted Text Annotation Using Active Learning to Achieve High Quality
with Little Effort [9.379650501033465]
研究者は、手動の注釈だけで、大規模で高品質な注釈付きデータセットを作成できるツールを提案する。
我々は、アクティブラーニング(AL)アプローチと事前訓練された言語モデルを組み合わせて、アノテーションカテゴリを半自動で識別する。
予備的な結果から,ALを用いることで,複雑なフレームや微妙なフレームを正しく分類するアノテーションの数が大幅に削減されることがわかった。
論文 参考訳(メタデータ) (2021-12-15T13:14:58Z) - OPAD: An Optimized Policy-based Active Learning Framework for Document
Content Analysis [6.159771892460152]
文書のコンテンツ検出タスクにおける能動的学習のための強化ポリシーを用いた新しいフレームワークであるtextitOPADを提案する。
フレームワークは、取得機能を学び、パフォーマンスメトリクスを最適化しながら、選択するサンプルを決定する。
本稿では,文書理解に関わる様々なタスクに対する能動的学習のためのテキストOPADフレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-01T07:40:56Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z) - Towards Using Count-level Weak Supervision for Crowd Counting [55.58468947486247]
本稿では,少数の位置レベルのアノテーション(十分に教師された)と大量のカウントレベルのアノテーション(弱教師付き)からモデルを学習する,弱教師付き群集カウントの問題について検討する。
我々は、生成した密度マップの自由を制限するための正規化を構築するために、単純なyet効果のトレーニング戦略、すなわちMultiple Auxiliary Tasks Training (MATT)を考案した。
論文 参考訳(メタデータ) (2020-02-29T02:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。