論文の概要: A Sentence-level Hierarchical BERT Model for Document Classification
with Limited Labelled Data
- arxiv url: http://arxiv.org/abs/2106.06738v1
- Date: Sat, 12 Jun 2021 10:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:14:21.074658
- Title: A Sentence-level Hierarchical BERT Model for Document Classification
with Limited Labelled Data
- Title(参考訳): 限定ラベリングデータを用いた文書分類のための文レベル階層型BERTモデル
- Authors: Jinghui Lu, Maeve Henchion, Ivan Bacher, Brian Mac Namee
- Abstract要約: この研究は、テキストの文レベルの特徴を学習し、限られたデータを持つシナリオでうまく機能する、長いテキスト固有のモデル、階層型BERTモデル(HBM)を導入している。
種々の評価実験により、HBMは50から200のラベル付きインスタンスしか持たない従来の最先端手法よりも、文書分類における高い性能を達成できることが示された。
- 参考スコア(独自算出の注目度): 5.123298347655086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training deep learning models with limited labelled data is an attractive
scenario for many NLP tasks, including document classification. While with the
recent emergence of BERT, deep learning language models can achieve reasonably
good performance in document classification with few labelled instances, there
is a lack of evidence in the utility of applying BERT-like models on long
document classification. This work introduces a long-text-specific model -- the
Hierarchical BERT Model (HBM) -- that learns sentence-level features of the
text and works well in scenarios with limited labelled data. Various evaluation
experiments have demonstrated that HBM can achieve higher performance in
document classification than the previous state-of-the-art methods with only 50
to 200 labelled instances, especially when documents are long. Also, as an
extra benefit of HBM, the salient sentences identified by learned HBM are
useful as explanations for labelling documents based on a user study.
- Abstract(参考訳): ラベル付きデータによるディープラーニングモデルのトレーニングは、文書分類を含む多くのNLPタスクにとって魅力的なシナリオである。
近年のBERTの出現に伴い、ラベル付きインスタンスがほとんどない文書分類において、ディープラーニング言語モデルは合理的に優れた性能を達成できるが、長い文書分類にBERTのようなモデルを適用することには証拠がない。
この研究は、テキストの文レベルの特徴を学習し、ラベル付きデータに制限のあるシナリオでうまく機能する、長いテキスト固有のモデル、階層型BERTモデル(HBM)を導入している。
様々な評価実験により、HBMは文書の分類において、特に文書が長い場合、50から200のラベル付きインスタンスしか持たない従来の最先端の手法よりも高い性能を達成できることが示されている。
また、HBMの余分な利点として、学習したHBMによって識別される有能な文は、ユーザ研究に基づく文書のラベル付けのための説明として有用である。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - Probing Representations for Document-level Event Extraction [30.523959637364484]
この研究は、文書レベルの情報抽出で学んだ表現に探索パラダイムを適用した最初のものである。
文書レベルのイベント抽出に関連するサーフェス,セマンティクス,イベント理解機能を分析するために,8つの埋め込みプローブを設計した。
これらのモデルからトレーニングされたエンコーダは、わずかに引数の検出とラベリングを改善することができるが、イベントレベルのタスクをわずかに強化するだけである。
論文 参考訳(メタデータ) (2023-10-23T19:33:04Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Comparative Study of Long Document Classification [0.0]
我々は、標準的な機械学習アプローチを用いて、長い文書分類を再考する。
単純なNaive Bayesから6つの標準テキスト分類データセット上の複雑なBERTまで、さまざまなアプローチをベンチマークする。
論文 参考訳(メタデータ) (2021-11-01T04:51:51Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。