論文の概要: An Efficient Active Learning Pipeline for Legal Text Classification
- arxiv url: http://arxiv.org/abs/2211.08112v1
- Date: Tue, 15 Nov 2022 13:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:36:19.448274
- Title: An Efficient Active Learning Pipeline for Legal Text Classification
- Title(参考訳): 法的テキスト分類のための効率的な能動学習パイプライン
- Authors: Sepideh Mamooler and R\'emi Lebret and St\'ephane Massonnet and Karl
Aberer
- Abstract要約: 法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
- 参考スコア(独自算出の注目度): 2.462514989381979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active Learning (AL) is a powerful tool for learning with less labeled data,
in particular, for specialized domains, like legal documents, where unlabeled
data is abundant, but the annotation requires domain expertise and is thus
expensive. Recent works have shown the effectiveness of AL strategies for
pre-trained language models. However, most AL strategies require a set of
labeled samples to start with, which is expensive to acquire. In addition,
pre-trained language models have been shown unstable during fine-tuning with
small datasets, and their embeddings are not semantically meaningful. In this
work, we propose a pipeline for effectively using active learning with
pre-trained language models in the legal domain. To this end, we leverage the
available unlabeled data in three phases. First, we continue pre-training the
model to adapt it to the downstream task. Second, we use knowledge distillation
to guide the model's embeddings to a semantically meaningful space. Finally, we
propose a simple, yet effective, strategy to find the initial set of labeled
samples with fewer actions compared to existing methods. Our experiments on
Contract-NLI, adapted to the classification task, and LEDGAR benchmarks show
that our approach outperforms standard AL strategies, and is more efficient.
Furthermore, our pipeline reaches comparable results to the fully-supervised
approach with a small performance gap, and dramatically reduced annotation
cost. Code and the adapted data will be made available.
- Abstract(参考訳): アクティブラーニング(al)は、ラベル付きデータが少なく、特に、ラベル付きデータが多い法律文書のような専門分野について学ぶための強力なツールであるが、アノテーションにはドメインの専門知識が必要であり、そのため費用がかかる。
最近の研究は、事前訓練された言語モデルに対するAL戦略の有効性を示している。
しかし、ほとんどのal戦略では、まずラベル付きサンプルのセットが必要であり、取得にはコストがかかる。
さらに、訓練済みの言語モデルは、小さなデータセットで微調整中に不安定であることが示されており、それらの埋め込みは意味的に意味がない。
本研究では,法律領域における事前学習言語モデルを用いたアクティブラーニングを効果的に活用するためのパイプラインを提案する。
この目的のために、利用可能なラベルなしデータを3つのフェーズで活用する。
まず、下流のタスクに適応するためにモデルを事前訓練し続けます。
第2に,モデルの埋め込みを意味的に意味のある空間に導くために,知識蒸留を用いる。
最後に,既存の手法に比べて少ない動作でラベル付きサンプルの初期セットを見つけるための,単純かつ効果的な戦略を提案する。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により、我々のアプローチは標準AL戦略よりも優れ、より効率的であることが示された。
さらに、パイプラインは、パフォーマンスのギャップが小さく、アノテーションコストが劇的に削減された完全に教師されたアプローチに匹敵する結果に達した。
コードと適合したデータは利用可能になる。
関連論文リスト
- Towards Efficient Active Learning in NLP via Pretrained Representations [1.90365714903665]
ファインチューニング大型言語モデル(LLM)は、今や幅広いアプリケーションにおけるテキスト分類の一般的なアプローチである。
能動学習ループ内でのLLMの事前学習表現を用いて,このプロセスを大幅に高速化する。
私たちの戦略は、アクティブな学習ループを通した微調整と同じようなパフォーマンスを得るが、計算コストは桁違いに低い。
論文 参考訳(メタデータ) (2024-02-23T21:28:59Z) - Learning to Learn for Few-shot Continual Active Learning [10.14157723705624]
メタコンチネンタルアクティブラーニング(Meta-Continual Active Learning)と呼ばれる,シンプルだが効率的な手法を提案する。
メタラーニングと経験リプレイを併用して、タスク間の混乱と破滅的な忘れを解消する。
提案手法の有効性を検証するため,テキスト分類データセットのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-11-07T05:22:11Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - ALLWAS: Active Learning on Language models in WASserstein space [13.35098213857704]
医学などのいくつかの領域では、ラベル付きトレーニングデータの不足が一般的な問題である。
アクティブな学習は、ラベルの予算が限られている場合、パフォーマンスを高めるのに役立ちます。
言語モデルにおけるアクティブ学習のためのサブモジュール最適化と最適輸送に基づくサンプリング手法を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-03T18:11:07Z) - Bayesian Active Learning with Pretrained Language Models [9.161353418331245]
Active Learning (AL)は、ラベルなしデータのプールからアノテーションのためのデータを反復的に選択する手法である。
以前のALアプローチは、イテレーションごとにゼロからトレーニングされるタスク固有のモデルに制限されている。
BALM;Bayesian Active Learning with pretrained language modelを紹介します。
論文 参考訳(メタデータ) (2021-04-16T19:07:31Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。