論文の概要: Transfer Learning for Information Extraction with Limited Data
- arxiv url: http://arxiv.org/abs/2003.03064v2
- Date: Mon, 8 Jun 2020 13:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:04:07.994431
- Title: Transfer Learning for Information Extraction with Limited Data
- Title(参考訳): 限られたデータを用いた情報抽出のための転送学習
- Authors: Minh-Tien Nguyen, Viet-Anh Phan, Le Thai Linh, Nguyen Hong Son, Le
Tien Dung, Miku Hirano and Hajime Hotta
- Abstract要約: 本稿では,詳細な情報抽出への実践的アプローチを提案する。
まずBERTを利用して、実際のシナリオにおけるトレーニングデータの制限に対処します。
次に、BERTを畳み込みニューラルネットワークで積み重ねて、分類のための隠れ表現を学習する。
- 参考スコア(独自算出の注目度): 2.201264358342234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a practical approach to fine-grained information
extraction. Through plenty of experiences of authors in practically applying
information extraction to business process automation, there can be found a
couple of fundamental technical challenges: (i) the availability of labeled
data is usually limited and (ii) highly detailed classification is required.
The main idea of our proposal is to leverage the concept of transfer learning,
which is to reuse the pre-trained model of deep neural networks, with a
combination of common statistical classifiers to determine the class of each
extracted term. To do that, we first exploit BERT to deal with the limitation
of training data in real scenarios, then stack BERT with Convolutional Neural
Networks to learn hidden representation for classification. To validate our
approach, we applied our model to an actual case of document processing, which
is a process of competitive bids for government projects in Japan. We used 100
documents for training and testing and confirmed that the model enables to
extract fine-grained named entities with a detailed level of information
preciseness specialized in the targeted business process, such as a department
name of application receivers.
- Abstract(参考訳): 本稿では,詳細な情報抽出手法を提案する。
情報抽出をビジネスプロセス自動化に適用した多くの著者の経験を通じて、基本的な技術的な課題がいくつか見つかる。
(i)ラベル付きデータの可用性は通常制限され、
(ii)高度に詳細な分類が必要である。
提案手法の主な考え方は,ディープニューラルネットワークの事前学習モデルと,抽出された各用語のクラスを決定する共通統計分類器の組み合わせを再利用するトランスファー学習の概念を活用することである。
まず,実シナリオにおけるトレーニングデータの制限に対応するためにBERTを使用し,次に畳み込みニューラルネットワークを用いてBERTを積み重ねて,分類のための隠れ表現を学習する。
本手法を検証するために,我が国の政府プロジェクトに対する競争入札のプロセスである文書処理の実際の事例に本モデルを適用した。
我々は,100の文書をトレーニングとテストに使用し,アプリケーションレシーバーの部門名など,対象業務プロセスに特化している詳細な情報精度で,詳細な名前付きエンティティを抽出できることを確認した。
関連論文リスト
- Leveraging Expert Models for Training Deep Neural Networks in Scarce
Data Domains: Application to Offline Handwritten Signature Verification [15.88604823470663]
提案方式はオフライン手書き署名検証(OffSV)に適用される。
特徴量に基づく知識蒸留(FKD)を利用したS-T構成の提案
注目すべきなのは、このテクニックを使ってトレーニングされたモデルは、3つの一般的なシグネチャデータセット間で、教師モデルに匹敵するパフォーマンスを示すことだ。
論文 参考訳(メタデータ) (2023-08-02T13:28:12Z) - Process-BERT: A Framework for Representation Learning on Educational
Process Data [68.8204255655161]
本稿では,教育プロセスデータの表現を学習するためのフレームワークを提案する。
我々のフレームワークは、BERT型の目的を用いて、シーケンシャルなプロセスデータから表現を学習する事前学習ステップで構成されています。
当社のフレームワークは,2019年国のレポートカードデータマイニングコンペティションデータセットに適用しています。
論文 参考訳(メタデータ) (2022-04-28T16:07:28Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - ProcK: Machine Learning for Knowledge-Intensive Processes [30.371382331613532]
ProcK(Process & Knowledge)はビジネスプロセス予測モデルを構築するための新しいパイプラインである。
リレーショナルデータベースからリンクされたイベントログとナレッジベースを抽出するコンポーネントは、パイプラインの一部である。
我々は、OULADのeラーニングデータセット上で予測タスクをトレーニングすることで、ProcKのパワーを実証する。
論文 参考訳(メタデータ) (2021-09-10T13:51:59Z) - Learning Purified Feature Representations from Task-irrelevant Labels [18.967445416679624]
本稿では,タスク関連ラベルから抽出したタスク関連機能を利用したPurifiedLearningという新しい学習フレームワークを提案する。
本研究は,PurifiedLearningの有効性を実証する,ソリッド理論解析と広範囲な実験に基づいている。
論文 参考訳(メタデータ) (2021-02-22T12:50:49Z) - Data-free Knowledge Distillation for Segmentation using Data-Enriching
GAN [0.0]
データフリー環境で知識蒸留を行うための新しいトレーニングフレームワークを提案する。
これまでのアプローチよりも6.93%改善しています。
論文 参考訳(メタデータ) (2020-11-02T08:16:42Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。