論文の概要: Selective Retrieval-Augmentation for Long-Tail Legal Text Classification
- arxiv url: http://arxiv.org/abs/2508.19997v2
- Date: Thu, 28 Aug 2025 01:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 11:47:01.213478
- Title: Selective Retrieval-Augmentation for Long-Tail Legal Text Classification
- Title(参考訳): 長期的法的テキスト分類のための選択的検索・拡張法
- Authors: Boheng Mao,
- Abstract要約: 本稿では,この問題の解法としてSRA(Selective Retrieval-Augmentation)を提案する。
SRAは、トレーニングセット内の低周波ラベルに属するサンプルの増強に重点を置いており、よく表現されたクラスに対するノイズの導入を防止している。
SRAは、現在のすべてのLexGLUEベースラインと比較して、より高いマイクロF1とマクロF1スコアを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legal text classification is a fundamental NLP task in the legal domain. Benchmark datasets in this area often exhibit a long-tail label distribution, where many labels are underrepresented, leading to poor model performance on rare classes. This paper proposes Selective Retrieval-Augmentation (SRA) as a solution to this problem. SRA focuses on augmenting samples belonging to low-frequency labels in the training set, preventing the introduction of noise for well-represented classes, and requires no changes to the model architecture. Retrieval is performed only from the training data to ensure there is no potential information leakage, removing the need for external corpora simultaneously. The proposed SRA method is tested on two legal text classification benchmark datasets with long-tail distributions: LEDGAR (single-label) and UNFAIR-ToS (multi-label). The results indicate that SRA attains higher micro-F1 and macro-F1 scores compared to all current LexGLUE baselines across both datasets, illustrating consistent improvements in long-tail legal text classification.
- Abstract(参考訳): 法的テキスト分類は、法域における基本的なNLPタスクである。
この領域のベンチマークデータセットは、多くのラベルが不足している長いテールラベルの分布を示すことが多く、希少なクラスでのモデルパフォーマンスが劣っている。
本稿では,この問題の解法としてSRA(Selective Retrieval-Augmentation)を提案する。
SRAは、トレーニングセット内の低周波ラベルに属するサンプルの増設に重点を置いており、よく表現されたクラスに対するノイズの導入を防止し、モデルアーキテクチャの変更を必要としない。
検索はトレーニングデータからのみ行われ、潜在的な情報漏洩がないことを保証し、同時に外部コーパスの必要性を除去する。
提案手法は,LEDGAR (シングルラベル) とUNFAIR-ToS (マルチラベル) の2つの法定テキスト分類ベンチマークを用いて検証した。
その結果、SRAは両方のデータセットにわたる現在のLexGLUEベースラインと比較して、マイクロF1およびマクロF1スコアが高くなり、ロングテール法テキスト分類における一貫した改善が示された。
関連論文リスト
- Generalized Category Discovery via Reciprocal Learning and Class-Wise Distribution Regularization [6.696520328216944]
Generalized Category Discovery (GCD) は、ラベル付きサンプルからベース知識を活用することでラベルなしサンプルを識別することを目的としている。
最近のパラメトリックベースの手法は、信頼できない自己超越による下限のベース差別に悩まされている。
本稿では,ベース分類を専門とする補助的分岐を導入した相互学習フレームワーク(RLF)を提案する。
論文 参考訳(メタデータ) (2025-06-03T00:12:39Z) - From Citations to Criticality: Predicting Legal Decision Influence in the Multilingual Swiss Jurisprudence [16.529070321280447]
本稿では,ケース優先性を評価するための新たなリソースであるCriticality Predictionデータセットを紹介する。
本データセットは,(1)二段式LD-Label,(2)より粒度の細かいCitation-Label,(2)二段式LD-Label,(2)二段式LD-Labelを特徴とする。
より小型の微調整モデルと大型の言語モデルを含む複数の多言語モデルをゼロショット設定で評価する。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - Towards Realistic Long-tailed Semi-supervised Learning in an Open World [0.0]
我々は、既知のカテゴリと新規カテゴリの分布関係を前提としない、よりエフェリアティックなオープンワールドLong-tailed Semi-supervised Learning(textbfROLSSL)を構築する。
提案したROOSSL設定では、二重ステージロジット調整と呼ばれる、シンプルで効果的な解を提案する。
CIFAR100やImageNet100のようなデータセットの実験では、最大50.1%のパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2024-05-23T12:53:50Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - On Non-Random Missing Labels in Semi-Supervised Learning [114.62655062520425]
Semi-Supervised Learning (SSL)は基本的にラベルの問題である。
SSL に "class" を明示的に組み込んでいます。
提案手法は,既存のベースラインを著しく上回るだけでなく,他のラベルバイアス除去SSL法を上回ります。
論文 参考訳(メタデータ) (2022-06-29T22:01:29Z) - Cycle Label-Consistent Networks for Unsupervised Domain Adaptation [57.29464116557734]
ドメイン適応は、ラベル付きソースドメインを活用して、異なる分布を持つラベル付きターゲットドメインの分類子を学ぶことを目的としています。
本稿では,分類ラベルのサイクル整合性を利用して,シンプルで効率的な領域適応手法,すなわちCycle Label-Consistent Network (CLCN)を提案する。
MNIST-USPS-SVHN, Office-31, Office-Home, Image CLEF-DAベンチマークに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-05-27T13:09:08Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z) - Training image classifiers using Semi-Weak Label Data [26.04162590798731]
多重インスタンス学習(MIL)では、弱ラベルがバッグレベルで提供され、存在/存在情報のみが知られる。
本稿では,この問題を軽減するため,新たな半弱ラベル学習パラダイムを提案する。
半弱ラベルから学習する問題に対処する2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-19T03:06:07Z) - NeuCrowd: Neural Sampling Network for Representation Learning with
Crowdsourced Labels [19.345894148534335]
本稿では,クラウドソースラベルから教師付き表現学習(SRL)を実現する統一フレームワークであるemphNeuCrowdを提案する。
提案手法は1つの実世界のデータセットと3つの実世界のデータセットで評価される。
論文 参考訳(メタデータ) (2020-03-21T13:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。