論文の概要: Text clustering applied to data augmentation in legal contexts
- arxiv url: http://arxiv.org/abs/2404.08683v1
- Date: Mon, 8 Apr 2024 16:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-21 19:54:47.218832
- Title: Text clustering applied to data augmentation in legal contexts
- Title(参考訳): 法的文脈におけるデータ拡張へのテキストクラスタリングの適用
- Authors: Lucas José Gonçalves Freitas, Thaís Rodrigues, Guilherme Rodrigues, Pamella Edokawa, Ariane Farias,
- Abstract要約: 本研究では、自然言語処理ツールの力を利用して、専門家が慎重にキュレートしたデータセットを強化する。
データ拡張クラスタリングベースの戦略は、分類モデルの精度と感度の指標を著しく向上させた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data analysis and machine learning are of preeminent importance in the legal domain, especially in tasks like clustering and text classification. In this study, we harnessed the power of natural language processing tools to enhance datasets meticulously curated by experts. This process significantly improved the classification workflow for legal texts using machine learning techniques. We considered the Sustainable Development Goals (SDGs) data from the United Nations 2030 Agenda as a practical case study. Data augmentation clustering-based strategy led to remarkable enhancements in the accuracy and sensitivity metrics of classification models. For certain SDGs within the 2030 Agenda, we observed performance gains of over 15%. In some cases, the example base expanded by a noteworthy factor of 5. When dealing with unclassified legal texts, data augmentation strategies centered around clustering prove to be highly effective. They provide a valuable means to expand the existing knowledge base without the need for labor-intensive manual classification efforts.
- Abstract(参考訳): データ分析と機械学習は、特にクラスタリングやテキスト分類といったタスクにおいて、法律分野において重要な意味を持つ。
本研究では,自然言語処理ツールの力を利用して,専門家が慎重にキュレートしたデータセットの強化を行った。
このプロセスは、機械学習技術を用いた法的テキストの分類ワークフローを大幅に改善した。
我々は、国連2030アジェンダの持続可能な開発目標(SDG)データを実践的なケーススタディとして検討した。
データ拡張クラスタリングベースの戦略は、分類モデルの精度と感度の指標を著しく向上させた。
2030年のアジェンダの特定のSDGでは、パフォーマンスが15%以上向上した。
ある場合、サンプルベースは注目すべき因子5で拡張される。
非分類の法的テキストを扱う場合、クラスタリングを中心としたデータ拡張戦略は非常に効果的であることが証明されている。
労働集約的な手作業による分類を必要とせずに、既存の知識基盤を拡張する貴重な手段を提供する。
関連論文リスト
- Text clustering with LLM embeddings [0.0]
テキストの埋め込みとクラスタリングアルゴリズムの違いが、テキストデータセットのクラスタリングに与える影響について検討する。
その結果、LLM埋め込みは構造化言語のニュアンスを捉えるのに優れており、BERTは性能において軽量な選択肢を導いていることがわかった。
論文 参考訳(メタデータ) (2024-03-22T11:08:48Z) - Incremental hierarchical text clustering methods: a review [49.32130498861987]
本研究の目的は,階層的および漸進的クラスタリング技術の解析である。
本研究の主な貢献は、文書クラスタリングのテキスト化を目的とした、2010年から2018年にかけて出版された研究で使用されるテクニックの組織化と比較である。
論文 参考訳(メタデータ) (2023-12-12T22:27:29Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文 参考訳(メタデータ) (2023-04-20T14:04:31Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。