論文の概要: The Right Model for the Job: An Evaluation of Legal Multi-Label
Classification Baselines
- arxiv url: http://arxiv.org/abs/2401.11852v1
- Date: Mon, 22 Jan 2024 11:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:21:43.225698
- Title: The Right Model for the Job: An Evaluation of Legal Multi-Label
Classification Baselines
- Title(参考訳): 雇用に適したモデル:法的多ラベル分類基準の評価
- Authors: Martina Forster, Claudia Schulz, Prudhvi Nokku, Melicaalsadat
Mirsafian, Jaykumar Kasundra, Stavroula Skylaki
- Abstract要約: マルチラベル分類(MLC、Multi-Label Classification)は、複数のラベルを法的文書に割り当てることのできる、法的領域における一般的なタスクである。
本研究では,2つの法的データセットを用いて異なるLCC手法の評価を行う。
- 参考スコア(独自算出の注目度): 4.5054837824245215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Label Classification (MLC) is a common task in the legal domain, where
more than one label may be assigned to a legal document. A wide range of
methods can be applied, ranging from traditional ML approaches to the latest
Transformer-based architectures. In this work, we perform an evaluation of
different MLC methods using two public legal datasets, POSTURE50K and
EURLEX57K. By varying the amount of training data and the number of labels, we
explore the comparative advantage offered by different approaches in relation
to the dataset properties. Our findings highlight DistilRoBERTa and LegalBERT
as performing consistently well in legal MLC with reasonable computational
demands. T5 also demonstrates comparable performance while offering advantages
as a generative model in the presence of changing label sets. Finally, we show
that the CrossEncoder exhibits potential for notable macro-F1 score
improvements, albeit with increased computational costs.
- Abstract(参考訳): マルチラベル分類(mlc、multi-label classification)は、複数のラベルが法的文書に割り当てられる法律領域における一般的なタスクである。
従来のMLアプローチから最新のTransformerベースのアーキテクチャまで、幅広い方法を適用することができる。
本研究では,2つの法的データセットであるPOSTURE50KとEURLEX57Kを用いて,異なるMLC手法の評価を行う。
トレーニングデータの量とラベルの数を変えることで、データセット特性に関して異なるアプローチによって提供される比較優位性について検討する。
以上の結果から, DistilRoBERTa と LegalBERT は妥当な計算要求を伴う法的 MLC において一貫して良好な性能を示した。
t5はまた、ラベルセットを変更する際に生成モデルとして利点を提供しながら、同等のパフォーマンスを示す。
最後に,CrossEncoderは計算コストの増加にもかかわらず,マクロF1スコアの改善の可能性を示す。
関連論文リスト
- FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - LC-Protonets: Multi-label Few-shot learning for world music audio tagging [65.72891334156706]
ラベル結合型プロトタイプネットワーク(LC-Protonets)を導入し,複数ラベルの複数ショット分類の問題に対処する。
LC-Protonetsは、限られたトレーニング項目に存在するラベルのパワーセットから、ラベルの組み合わせごとに1つのプロトタイプを生成する。
本手法は,様々な文化をカバーし,現代音楽と伝統音楽の両方を含む,多様な音楽データセットにまたがる自動音声タグ付けに適用する。
論文 参考訳(メタデータ) (2024-09-17T15:13:07Z) - Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - Interpretable Cross-Examination Technique (ICE-T): Using highly informative features to boost LLM performance [1.1961645395911131]
医学や法律など、解釈可能性が不可欠である領域では、標準モデルは「ブラックボックス」の性質のためにしばしば不足する。
ICE-Tは、LLMが複数の方向から問題にアプローチできるようにする一連のプロンプトを使用することで、これらの制限に対処する。
我々は、医療記録や法的文書など、さまざまなデータソースにまたがるICE-Tの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-08T19:20:34Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - Transformer-based Entity Legal Form Classification [43.75590166844617]
本稿では,形式分類のためのトランスフォーマーに基づく言語モデルを提案する。
BERTのバリエーションを多用し、その性能を従来の複数のベースラインと比較する。
以上の結果から,事前学習したBERT変種は従来のテキスト分類法よりもF1スコアで優れていた。
論文 参考訳(メタデータ) (2023-10-19T14:11:43Z) - Retrieval-augmented Multi-label Text Classification [20.100081284294973]
マルチラベルテキスト分類は、大きなラベルセットの設定において難しい課題である。
Retrieval augmentationは、分類モデルのサンプル効率を改善することを目的としている。
本手法は,法および生物医学領域の4つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2023-05-22T14:16:23Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。