論文の概要: The Right Model for the Job: An Evaluation of Legal Multi-Label
Classification Baselines
- arxiv url: http://arxiv.org/abs/2401.11852v1
- Date: Mon, 22 Jan 2024 11:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:21:43.225698
- Title: The Right Model for the Job: An Evaluation of Legal Multi-Label
Classification Baselines
- Title(参考訳): 雇用に適したモデル:法的多ラベル分類基準の評価
- Authors: Martina Forster, Claudia Schulz, Prudhvi Nokku, Melicaalsadat
Mirsafian, Jaykumar Kasundra, Stavroula Skylaki
- Abstract要約: マルチラベル分類(MLC、Multi-Label Classification)は、複数のラベルを法的文書に割り当てることのできる、法的領域における一般的なタスクである。
本研究では,2つの法的データセットを用いて異なるLCC手法の評価を行う。
- 参考スコア(独自算出の注目度): 4.5054837824245215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Label Classification (MLC) is a common task in the legal domain, where
more than one label may be assigned to a legal document. A wide range of
methods can be applied, ranging from traditional ML approaches to the latest
Transformer-based architectures. In this work, we perform an evaluation of
different MLC methods using two public legal datasets, POSTURE50K and
EURLEX57K. By varying the amount of training data and the number of labels, we
explore the comparative advantage offered by different approaches in relation
to the dataset properties. Our findings highlight DistilRoBERTa and LegalBERT
as performing consistently well in legal MLC with reasonable computational
demands. T5 also demonstrates comparable performance while offering advantages
as a generative model in the presence of changing label sets. Finally, we show
that the CrossEncoder exhibits potential for notable macro-F1 score
improvements, albeit with increased computational costs.
- Abstract(参考訳): マルチラベル分類(mlc、multi-label classification)は、複数のラベルが法的文書に割り当てられる法律領域における一般的なタスクである。
従来のMLアプローチから最新のTransformerベースのアーキテクチャまで、幅広い方法を適用することができる。
本研究では,2つの法的データセットであるPOSTURE50KとEURLEX57Kを用いて,異なるMLC手法の評価を行う。
トレーニングデータの量とラベルの数を変えることで、データセット特性に関して異なるアプローチによって提供される比較優位性について検討する。
以上の結果から, DistilRoBERTa と LegalBERT は妥当な計算要求を伴う法的 MLC において一貫して良好な性能を示した。
t5はまた、ラベルセットを変更する際に生成モデルとして利点を提供しながら、同等のパフォーマンスを示す。
最後に,CrossEncoderは計算コストの増加にもかかわらず,マクロF1スコアの改善の可能性を示す。
関連論文リスト
- COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - Transformer-based Entity Legal Form Classification [43.75590166844617]
本稿では,形式分類のためのトランスフォーマーに基づく言語モデルを提案する。
BERTのバリエーションを多用し、その性能を従来の複数のベースラインと比較する。
以上の結果から,事前学習したBERT変種は従来のテキスト分類法よりもF1スコアで優れていた。
論文 参考訳(メタデータ) (2023-10-19T14:11:43Z) - Retrieval-augmented Multi-label Text Classification [20.100081284294973]
マルチラベルテキスト分類は、大きなラベルセットの設定において難しい課題である。
Retrieval augmentationは、分類モデルのサンプル効率を改善することを目的としている。
本手法は,法および生物医学領域の4つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2023-05-22T14:16:23Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - MemSAC: Memory Augmented Sample Consistency for Large Scale Unsupervised
Domain Adaptation [71.4942277262067]
本稿では,ソースドメインとターゲットドメイン間のサンプルレベルの類似性を利用して識別的転送を実現するMemSACを提案する。
我々は,MemSACの有効性に関する詳細な分析と知見を提供する。
論文 参考訳(メタデータ) (2022-07-25T17:55:28Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。