論文の概要: An Efficient Active Learning Pipeline for Legal Text Classification
- arxiv url: http://arxiv.org/abs/2211.08112v1
- Date: Tue, 15 Nov 2022 13:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:36:19.448274
- Title: An Efficient Active Learning Pipeline for Legal Text Classification
- Title(参考訳): 法的テキスト分類のための効率的な能動学習パイプライン
- Authors: Sepideh Mamooler and R\'emi Lebret and St\'ephane Massonnet and Karl
Aberer
- Abstract要約: 法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
- 参考スコア(独自算出の注目度): 2.462514989381979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active Learning (AL) is a powerful tool for learning with less labeled data,
in particular, for specialized domains, like legal documents, where unlabeled
data is abundant, but the annotation requires domain expertise and is thus
expensive. Recent works have shown the effectiveness of AL strategies for
pre-trained language models. However, most AL strategies require a set of
labeled samples to start with, which is expensive to acquire. In addition,
pre-trained language models have been shown unstable during fine-tuning with
small datasets, and their embeddings are not semantically meaningful. In this
work, we propose a pipeline for effectively using active learning with
pre-trained language models in the legal domain. To this end, we leverage the
available unlabeled data in three phases. First, we continue pre-training the
model to adapt it to the downstream task. Second, we use knowledge distillation
to guide the model's embeddings to a semantically meaningful space. Finally, we
propose a simple, yet effective, strategy to find the initial set of labeled
samples with fewer actions compared to existing methods. Our experiments on
Contract-NLI, adapted to the classification task, and LEDGAR benchmarks show
that our approach outperforms standard AL strategies, and is more efficient.
Furthermore, our pipeline reaches comparable results to the fully-supervised
approach with a small performance gap, and dramatically reduced annotation
cost. Code and the adapted data will be made available.
- Abstract(参考訳): アクティブラーニング(al)は、ラベル付きデータが少なく、特に、ラベル付きデータが多い法律文書のような専門分野について学ぶための強力なツールであるが、アノテーションにはドメインの専門知識が必要であり、そのため費用がかかる。
最近の研究は、事前訓練された言語モデルに対するAL戦略の有効性を示している。
しかし、ほとんどのal戦略では、まずラベル付きサンプルのセットが必要であり、取得にはコストがかかる。
さらに、訓練済みの言語モデルは、小さなデータセットで微調整中に不安定であることが示されており、それらの埋め込みは意味的に意味がない。
本研究では,法律領域における事前学習言語モデルを用いたアクティブラーニングを効果的に活用するためのパイプラインを提案する。
この目的のために、利用可能なラベルなしデータを3つのフェーズで活用する。
まず、下流のタスクに適応するためにモデルを事前訓練し続けます。
第2に,モデルの埋め込みを意味的に意味のある空間に導くために,知識蒸留を用いる。
最後に,既存の手法に比べて少ない動作でラベル付きサンプルの初期セットを見つけるための,単純かつ効果的な戦略を提案する。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により、我々のアプローチは標準AL戦略よりも優れ、より効率的であることが示された。
さらに、パイプラインは、パフォーマンスのギャップが小さく、アノテーションコストが劇的に削減された完全に教師されたアプローチに匹敵する結果に達した。
コードと適合したデータは利用可能になる。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Towards Efficient Active Learning in NLP via Pretrained Representations [1.90365714903665]
ファインチューニング大型言語モデル(LLM)は、今や幅広いアプリケーションにおけるテキスト分類の一般的なアプローチである。
能動学習ループ内でのLLMの事前学習表現を用いて,このプロセスを大幅に高速化する。
私たちの戦略は、アクティブな学習ループを通した微調整と同じようなパフォーマンスを得るが、計算コストは桁違いに低い。
論文 参考訳(メタデータ) (2024-02-23T21:28:59Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - Dominant Set-based Active Learning for Text Classification and its
Application to Online Social Media [0.0]
本稿では,最小限のアノテーションコストで大規模未ラベルコーパスのトレーニングを行うための,プールベースのアクティブラーニング手法を提案する。
提案手法には調整すべきパラメータが一切ないため,データセットに依存しない。
本手法は,最先端のアクティブラーニング戦略と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2022-01-28T19:19:03Z) - ALLWAS: Active Learning on Language models in WASserstein space [13.35098213857704]
医学などのいくつかの領域では、ラベル付きトレーニングデータの不足が一般的な問題である。
アクティブな学習は、ラベルの予算が限られている場合、パフォーマンスを高めるのに役立ちます。
言語モデルにおけるアクティブ学習のためのサブモジュール最適化と最適輸送に基づくサンプリング手法を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-03T18:11:07Z) - Bayesian Active Learning with Pretrained Language Models [9.161353418331245]
Active Learning (AL)は、ラベルなしデータのプールからアノテーションのためのデータを反復的に選択する手法である。
以前のALアプローチは、イテレーションごとにゼロからトレーニングされるタスク固有のモデルに制限されている。
BALM;Bayesian Active Learning with pretrained language modelを紹介します。
論文 参考訳(メタデータ) (2021-04-16T19:07:31Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。