論文の概要: Large Scale Legal Text Classification Using Transformer Models
- arxiv url: http://arxiv.org/abs/2010.12871v1
- Date: Sat, 24 Oct 2020 11:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:00:17.939774
- Title: Large Scale Legal Text Classification Using Transformer Models
- Title(参考訳): トランスフォーマーモデルを用いた大規模法的テキスト分類
- Authors: Zein Shaheen, Gerhard Wohlgenannt, Erwin Filtz
- Abstract要約: 本研究では, トランスフォーマーモデルの性能と, 生成前訓練, 段階的凍結, 差別的学習率などの戦略を組み合わせて検討した。
WeLEXは、アブレーション研究において、言語モデルの微調整や段階的凍結といった個々のステップの影響を定量化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multi-label text classification is a challenging Natural Language
Processing (NLP) problem that is concerned with text classification for
datasets with thousands of labels. We tackle this problem in the legal domain,
where datasets, such as JRC-Acquis and EURLEX57K labeled with the EuroVoc
vocabulary were created within the legal information systems of the European
Union. The EuroVoc taxonomy includes around 7000 concepts. In this work, we
study the performance of various recent transformer-based models in combination
with strategies such as generative pretraining, gradual unfreezing and
discriminative learning rates in order to reach competitive classification
performance, and present new state-of-the-art results of 0.661 (F1) for
JRC-Acquis and 0.754 for EURLEX57K. Furthermore, we quantify the impact of
individual steps, such as language model fine-tuning or gradual unfreezing in
an ablation study, and provide reference dataset splits created with an
iterative stratification algorithm.
- Abstract(参考訳): 大規模マルチラベルテキスト分類は、何千ものラベルを持つデータセットのテキスト分類に関わる自然言語処理(NLP)の問題である。
そこでは,EUの法情報システム内に,ユーロボック語彙をラベル付けしたJRC-AcquisやEURLEX57Kなどのデータセットが作成された。
ユーロボックの分類には約7000の概念が含まれている。
本研究では,近年の変圧器モデルの性能を,競争的分類性能を達成するために,生成前訓練,段階的非凍結,判別学習率などの戦略と組み合わせて検討し,jrc-acquis 0.661 (f1) とeurlex57k 0.754 の新たな最新結果について述べる。
さらに,アブレーション研究における言語モデルの微調整や段階的凍結といった個々のステップの影響を定量化し,反復階層化アルゴリズムを用いて作成した参照データセット分割を提供する。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - IDoFew: Intermediate Training Using Dual-Clustering in Language Models
for Few Labels Text Classification [24.11420537250414]
変換器からの双方向表現(BERT)は、自然言語処理(NLP)やテキスト分類を含むテキストマイニングタスクにおいて非常に効果的である。
いくつかのタスクは、制限付きラベル付きテキスト分類など、これらのモデルに依然として課題を生じさせる。
擬似ラベルを確実にモデル化する2段階の中間クラスタリングを開発した。
論文 参考訳(メタデータ) (2024-01-08T17:07:37Z) - Transductive Learning for Textual Few-Shot Classification in API-based
Embedding Models [46.79078308022975]
わずかなラベル付きデータで新しい分類タスクを実行するために、モデルをトレーニングするショットは少ない。
本稿では,事前学習したモデルの埋め込みを,計算コストとデータプライバシ制約を備えたゲートAPIを通じて提供するシナリオを紹介する。
我々はNLPコミュニティが見落としてきた学習パラダイムであるトランスダクティブ推論を提案する。
論文 参考訳(メタデータ) (2023-10-21T12:47:10Z) - Utilizing Weak Supervision To Generate Indonesian Conservation Dataset [3.357014575278386]
迅速かつ大規模なデータセット作成のための有望なアプローチとして、弱みの監視が登場している。
本稿では,インドネシアのNLPデータセットを保護ニューステキストから構築する方法について述べる。
論文 参考訳(メタデータ) (2023-10-17T13:23:18Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。