論文の概要: Selective Retrieval-Augmentation for Long-Tail Legal Text Classification
- arxiv url: http://arxiv.org/abs/2508.19997v1
- Date: Wed, 27 Aug 2025 15:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.693585
- Title: Selective Retrieval-Augmentation for Long-Tail Legal Text Classification
- Title(参考訳): 長期的法的テキスト分類のための選択的検索・拡張法
- Authors: Boheng Mao,
- Abstract要約: 本稿では,この問題の解法としてSRA(Selective Retrieval-Augmentation)を提案する。
SRAは、トレーニングセット内の低周波ラベルに属するサンプルの増強に重点を置いており、よく表現されたクラスに対するノイズの導入を防止している。
SRAは、現在のすべてのLexGLUEベースラインと比較して、より高いマイクロF1とマクロF1スコアを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legal text classification is a fundamental NLP task in the legal domain. Benchmark datasets in this area often exhibit a long-tail label distribution, where many labels are underrepresented, leading to poor model performance on rare classes. This paper proposes Selective Retrieval-Augmentation (SRA) as a solution to this problem. SRA focuses on augmenting samples belonging to low-frequency labels in the training set, preventing the introduction of noise for well-represented classes, and requires no changes to the model architecture. Retrieval is performed only from the training data to ensure there is no potential information leakage, removing the need for external corpora simultaneously. The proposed SRA method is tested on two legal text classification benchmark datasets with long-tail distributions: LEDGAR (single-label) and UNFAIR-ToS (multi-label). The results indicate that SRA attains higher micro-F1 and macro-F1 scores compared to all current LexGLUE baselines across both datasets, illustrating consistent improvements in long-tail legal text classification. The code repository is available at: https://github.com/Boheng-Mao/sra-legal
- Abstract(参考訳): 法的テキスト分類は、法域における基本的なNLPタスクである。
この領域のベンチマークデータセットは、多くのラベルが不足している長いテールラベルの分布を示すことが多く、希少なクラスでのモデルパフォーマンスが劣っている。
本稿では,この問題の解法としてSRA(Selective Retrieval-Augmentation)を提案する。
SRAは、トレーニングセット内の低周波ラベルに属するサンプルの増設に重点を置いており、よく表現されたクラスに対するノイズの導入を防止し、モデルアーキテクチャの変更を必要としない。
検索はトレーニングデータからのみ行われ、潜在的な情報漏洩がないことを保証し、同時に外部コーパスの必要性を除去する。
提案手法は,LEDGAR (シングルラベル) とUNFAIR-ToS (マルチラベル) の2つの法定テキスト分類ベンチマークを用いて検証した。
その結果、SRAは両方のデータセットにわたる現在のLexGLUEベースラインと比較して、マイクロF1およびマクロF1スコアが高くなり、ロングテール法テキスト分類における一貫した改善が示された。
コードリポジトリは、https://github.com/Boheng-Mao/sra-legal.comで入手できる。
関連論文リスト
- Generalized Category Discovery via Reciprocal Learning and Class-Wise Distribution Regularization [6.696520328216944]
Generalized Category Discovery (GCD) は、ラベル付きサンプルからベース知識を活用することでラベルなしサンプルを識別することを目的としている。
最近のパラメトリックベースの手法は、信頼できない自己超越による下限のベース差別に悩まされている。
本稿では,ベース分類を専門とする補助的分岐を導入した相互学習フレームワーク(RLF)を提案する。
論文 参考訳(メタデータ) (2025-06-03T00:12:39Z) - From Citations to Criticality: Predicting Legal Decision Influence in the Multilingual Swiss Jurisprudence [16.529070321280447]
本稿では,ケース優先性を評価するための新たなリソースであるCriticality Predictionデータセットを紹介する。
本データセットは,(1)二段式LD-Label,(2)より粒度の細かいCitation-Label,(2)二段式LD-Label,(2)二段式LD-Labelを特徴とする。
より小型の微調整モデルと大型の言語モデルを含む複数の多言語モデルをゼロショット設定で評価する。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - Class-aware and Augmentation-free Contrastive Learning from Label Proportion [19.41511190742059]
Label Proportion(LLP)からの学習(Learning from Label Proportion)は、トレーニングデータを事前定義されたインスタンスのバッグに整理する、弱教師付き学習シナリオである。
本稿では,インスタンスレベルでのクラス認識管理を導入した拡張フリーコントラストフレームワークTabLLP-BDCを提案する。
我々のソリューションは、2段階のBag Different Contrastive(BDC)学習機構を備えており、堅牢なクラス認識インスタンスレベルの監視を確立する。
論文 参考訳(メタデータ) (2024-08-13T09:04:47Z) - PS-TTL: Prototype-based Soft-labels and Test-Time Learning for Few-shot Object Detection [21.443060372419286]
Few-Shot Object Detection (FSOD) は注目され、大きな進歩を遂げた。
我々は,FSODの新しいフレームワーク,すなわちプロトタイプベースのソフトラベルとテスト時間学習(PS-TTL)を提案する。
論文 参考訳(メタデータ) (2024-08-11T02:21:43Z) - Towards Realistic Long-tailed Semi-supervised Learning in an Open World [0.0]
我々は、既知のカテゴリと新規カテゴリの分布関係を前提としない、よりエフェリアティックなオープンワールドLong-tailed Semi-supervised Learning(textbfROLSSL)を構築する。
提案したROOSSL設定では、二重ステージロジット調整と呼ばれる、シンプルで効果的な解を提案する。
CIFAR100やImageNet100のようなデータセットの実験では、最大50.1%のパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2024-05-23T12:53:50Z) - Frequency-Aware Self-Supervised Long-Tailed Learning [36.00672675332761]
固有長周期分布を持つラベルのないデータから学習するための周波数対応自己監視学習(FASSL)を提案する。
まず, 周波数認識型プロトタイプを学習し, 関連する長い尾の分布を反映する。特にレアクラスのサンプルに着目し, 画像データと派生プロトタイプの関係を活用。
論文 参考訳(メタデータ) (2023-09-09T08:57:40Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - On Non-Random Missing Labels in Semi-Supervised Learning [114.62655062520425]
Semi-Supervised Learning (SSL)は基本的にラベルの問題である。
SSL に "class" を明示的に組み込んでいます。
提案手法は,既存のベースラインを著しく上回るだけでなく,他のラベルバイアス除去SSL法を上回ります。
論文 参考訳(メタデータ) (2022-06-29T22:01:29Z) - Cycle Label-Consistent Networks for Unsupervised Domain Adaptation [57.29464116557734]
ドメイン適応は、ラベル付きソースドメインを活用して、異なる分布を持つラベル付きターゲットドメインの分類子を学ぶことを目的としています。
本稿では,分類ラベルのサイクル整合性を利用して,シンプルで効率的な領域適応手法,すなわちCycle Label-Consistent Network (CLCN)を提案する。
MNIST-USPS-SVHN, Office-31, Office-Home, Image CLEF-DAベンチマークに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-05-27T13:09:08Z) - Creating Training Sets via Weak Indirect Supervision [66.77795318313372]
Weak Supervision (WS)フレームワークは、複数の潜在的にノイズの多い監督ソースからトレーニングラベルを合成する。
Weak Indirect Supervision (WIS) は、トレーニングラベルの自動合成のための新しい研究課題である。
我々は,ユーザが提供するラベル関係を利用して間接的な監督源をモデル化し活用する確率論的モデリング手法PLRMを開発した。
論文 参考訳(メタデータ) (2021-10-07T14:09:35Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Neighborhood Contrastive Learning for Novel Class Discovery [79.14767688903028]
我々は,クラスタリング性能に重要な識別表現を学習するために,Neighborhood Contrastive Learningという新しいフレームワークを構築した。
これらの2つの成分がクラスタリング性能に大きく寄与し、我々のモデルが最先端の手法よりも大きなマージンで優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-20T17:34:55Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z) - Training image classifiers using Semi-Weak Label Data [26.04162590798731]
多重インスタンス学習(MIL)では、弱ラベルがバッグレベルで提供され、存在/存在情報のみが知られる。
本稿では,この問題を軽減するため,新たな半弱ラベル学習パラダイムを提案する。
半弱ラベルから学習する問題に対処する2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-19T03:06:07Z) - Hard Class Rectification for Domain Adaptation [36.58361356407803]
ドメイン適応(DA)は、ラベルリッチドメイン(ソースドメイン)からラベルケアドメイン(ターゲットドメイン)に知識を移すことを目的としている。
本稿では,HCRPL(Hard Class Rectification Pseudo-labeling)と呼ばれる新しいフレームワークを提案する。
提案手法は,非教師付きドメイン適応(UDA)と半教師付きドメイン適応(SSDA)の両方において評価される。
論文 参考訳(メタデータ) (2020-08-08T06:21:58Z) - Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive
Person Re-Identification [64.37745443119942]
本稿では,局所的なワンホット分類とグローバルなマルチクラス分類を組み合わせることで,視覚的・時間的整合性を両立させる。
3つの大規模ReIDデータセットの実験結果は、教師なしと教師なしの両方のドメイン適応型ReIDタスクにおいて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2020-07-21T14:31:27Z) - NeuCrowd: Neural Sampling Network for Representation Learning with
Crowdsourced Labels [19.345894148534335]
本稿では,クラウドソースラベルから教師付き表現学習(SRL)を実現する統一フレームワークであるemphNeuCrowdを提案する。
提案手法は1つの実世界のデータセットと3つの実世界のデータセットで評価される。
論文 参考訳(メタデータ) (2020-03-21T13:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。