論文の概要: Text clustering applied to data augmentation in legal contexts
- arxiv url: http://arxiv.org/abs/2404.08683v1
- Date: Mon, 8 Apr 2024 16:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-21 19:54:47.218832
- Title: Text clustering applied to data augmentation in legal contexts
- Title(参考訳): 法的文脈におけるデータ拡張へのテキストクラスタリングの適用
- Authors: Lucas José Gonçalves Freitas, Thaís Rodrigues, Guilherme Rodrigues, Pamella Edokawa, Ariane Farias,
- Abstract要約: 本研究では、自然言語処理ツールの力を利用して、専門家が慎重にキュレートしたデータセットを強化する。
データ拡張クラスタリングベースの戦略は、分類モデルの精度と感度の指標を著しく向上させた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data analysis and machine learning are of preeminent importance in the legal domain, especially in tasks like clustering and text classification. In this study, we harnessed the power of natural language processing tools to enhance datasets meticulously curated by experts. This process significantly improved the classification workflow for legal texts using machine learning techniques. We considered the Sustainable Development Goals (SDGs) data from the United Nations 2030 Agenda as a practical case study. Data augmentation clustering-based strategy led to remarkable enhancements in the accuracy and sensitivity metrics of classification models. For certain SDGs within the 2030 Agenda, we observed performance gains of over 15%. In some cases, the example base expanded by a noteworthy factor of 5. When dealing with unclassified legal texts, data augmentation strategies centered around clustering prove to be highly effective. They provide a valuable means to expand the existing knowledge base without the need for labor-intensive manual classification efforts.
- Abstract(参考訳): データ分析と機械学習は、特にクラスタリングやテキスト分類といったタスクにおいて、法律分野において重要な意味を持つ。
本研究では,自然言語処理ツールの力を利用して,専門家が慎重にキュレートしたデータセットの強化を行った。
このプロセスは、機械学習技術を用いた法的テキストの分類ワークフローを大幅に改善した。
我々は、国連2030アジェンダの持続可能な開発目標(SDG)データを実践的なケーススタディとして検討した。
データ拡張クラスタリングベースの戦略は、分類モデルの精度と感度の指標を著しく向上させた。
2030年のアジェンダの特定のSDGでは、パフォーマンスが15%以上向上した。
ある場合、サンプルベースは注目すべき因子5で拡張される。
非分類の法的テキストを扱う場合、クラスタリングを中心としたデータ拡張戦略は非常に効果的であることが証明されている。
労働集約的な手作業による分類を必要とせずに、既存の知識基盤を拡張する貴重な手段を提供する。
関連論文リスト
- Benchmarking pre-trained text embedding models in aligning built asset information [0.0]
本研究では、組立資産情報とドメイン固有の技術的概念の整合性を評価するため、最先端のテキスト埋め込みモデルの比較ベンチマークを提案する。
提案した6つのデータセットを対象としたベンチマークの結果は、クラスタリング、検索、再ランク付けの3つのタスクをカバーし、将来のドメイン適応技術の研究の必要性を強調している。
論文 参考訳(メタデータ) (2024-11-18T20:54:17Z) - Clustering Algorithms and RAG Enhancing Semi-Supervised Text Classification with Large LLMs [1.6575279044457722]
本稿では,テキスト分類のための革新的な半教師あり学習手法を提案する。
提案手法は,少数ショット学習と検索強化生成(RAG)と従来の統計クラスタリングを統合した手法である。
ReutersとWeb of Scienceのデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-09T13:17:39Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。
本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文 参考訳(メタデータ) (2023-12-12T22:27:29Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。