論文の概要: Automatic Detection of Industry Sectors in Legal Articles Using Machine
Learning Approaches
- arxiv url: http://arxiv.org/abs/2303.05387v1
- Date: Wed, 8 Mar 2023 12:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:04:21.098579
- Title: Automatic Detection of Industry Sectors in Legal Articles Using Machine
Learning Approaches
- Title(参考訳): 機械学習を用いた法律記事における産業セクターの自動検出
- Authors: Hui Yang (1 and 2), Stella Hadjiantoni (1), Yunfei Long (3), Ruta
Petraityte (2), Berthold Lausen (1 and 4) ((1) Department of Mathematical
Sciences, University of Essex, Wivenhoe Park, Colchester, CO43SQ, UK, (2)
Mondaq Ltd, Bristol, UK, (3) School of Computer Science and Electronic
Engineering, University of Essex, Wivenhoe Park, Colchester, CO43SQ, UK, (4)
Institute of Medical Informatics, Biometry and Epidemiology, School of
Medicine, Friedrich-Alexander University Erlangen-Nuremberg, Waldstr. 6,
Erlangen, 91054, Germany)
- Abstract要約: 1,700以上の注釈付き法律論文からなるデータセットが6つの産業セクターの識別のために作成された。
このシステムは、6つの産業セクターに対して0.90以上の特性曲線と0.81以上のFスコアを受信機が操作する領域で有望な結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to automatically identify industry sector coverage in articles on
legal developments, or any kind of news articles for that matter, can bring
plentiful of benefits both to the readers and the content creators themselves.
By having articles tagged based on industry coverage, readers from all around
the world would be able to get to legal news that are specific to their region
and professional industry. Simultaneously, writers would benefit from
understanding which industries potentially lack coverage or which industries
readers are currently mostly interested in and thus, they would focus their
writing efforts towards more inclusive and relevant legal news coverage. In
this paper, a Machine Learning-powered industry analysis approach which
combined Natural Language Processing (NLP) with Statistical and Machine
Learning (ML) techniques was investigated. A dataset consisting of over 1,700
annotated legal articles was created for the identification of six industry
sectors. Text and legal based features were extracted from the text. Both
traditional ML methods (e.g. gradient boosting machine algorithms, and
decision-tree based algorithms) and deep neural network (e.g. transformer
models) were applied for performance comparison of predictive models. The
system achieved promising results with area under the receiver operating
characteristic curve scores above 0.90 and F-scores above 0.81 with respect to
the six industry sectors. The experimental results show that the suggested
automated industry analysis which employs ML techniques allows the processing
of large collections of text data in an easy, efficient, and scalable way.
Traditional ML methods perform better than deep neural networks when only a
small and domain-specific training data is available for the study.
- Abstract(参考訳): 法律開発に関する記事や、それに関するどんな種類のニュース記事でも、業界セクターのカバレッジを自動的に識別できる能力は、読者とコンテンツクリエーター自身の双方に多くの利益をもたらす。
業界の報道に基づいて記事にタグを付けることで、世界中の読者は、自分たちの地域や専門業界特有の法的ニュースを得られるようになるだろう。
同時に、ライターは、どの業界がカバー範囲を欠いているか、あるいは現在どの業界読者が関心を持っているのかを理解し、より包括的で関連する法的ニュースの報道に彼らの執筆努力を集中させることで利益を得るだろう。
本稿では,自然言語処理(NLP)と統計的・機械学習(ML)技術を組み合わせた機械学習産業分析手法を提案する。
1,700以上の注釈付き法律論文からなるデータセットが6つの産業セクターの識別のために作成された。
テキストと法律に基づく特徴がテキストから抽出された。
予測モデルの性能比較には、従来のML手法(勾配向上マシンアルゴリズムや決定木に基づくアルゴリズムなど)とディープニューラルネットワーク(トランスフォーマーモデルなど)がそれぞれ適用された。
このシステムは、6つの産業分野について0.90以上の特性曲線と0.81以上のFスコアを受信機で操作する領域で有望な結果を得た。
実験結果から,ML技術を用いた産業の自動分析により,大量のテキストデータを,簡単かつ効率的かつスケーラブルな方法で処理できることが示唆された。
従来のmlメソッドは、研究のために小さなドメイン固有のトレーニングデータしか利用できない場合、ディープニューラルネットワークよりもパフォーマンスが良い。
関連論文リスト
- Towards One-Shot Learning for Text Classification using Inductive Logic
Programming [0.0]
本稿では,単発テキスト分類のための帰納的論理プログラミング手法について検討する。
その結果,MILは少数の学習例からテキスト分類規則を学習できることが示唆された。
論文 参考訳(メタデータ) (2023-08-30T09:04:06Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Multidimensional Perceptron for Efficient and Explainable Long Text
Classification [31.31206469613901]
本稿では,フレームワーク内の注目/RNNを置き換えるために,単純だが効果的なSegment-aWare多次元PErceptron(SWIPE)を提案する。
SWIPEは、テキスト全体のラベルを教師付きトレーニングで効果的に学習し、セグメントのラベルを認識し、長文ラベリングへの貢献を見積もる。
論文 参考訳(メタデータ) (2023-04-04T08:49:39Z) - RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced
Labour [4.393754160527062]
本稿では,マルチクラスおよび複数ラベルの強制労働検出のための注釈付き英語コーパスについて紹介する。
コーパスは、国際労働機関(ILO)が定めるリスク指標に従って、専門データソースから検索した989のニュース記事で構成されている。
論文 参考訳(メタデータ) (2022-05-05T14:43:31Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Rebuilding Trust in Active Learning with Actionable Metrics [77.99796068970569]
アクティブラーニング(AL)は研究の活発な領域であるが、プレッシャーのあるニーズにもかかわらず、業界ではほとんど使われない。
これは部分的には目的のずれによるものであり、研究は選択したデータセットで最高の結果を得るよう努力している。
積極的学習における産業実践者の信頼回復を支援するために,様々な活動可能な指標を提示する。
論文 参考訳(メタデータ) (2020-12-18T09:34:59Z) - Supervised Text Classification using Text Search [0.0]
著者は、事前にラベル付けされたテキストデータの分類を正確に予測できる産業標準アルゴリズムのクラスを記述している。
これらのアルゴリズムは、適切なチームへの発行チケットのルーティングを自動化するために使用された。
論文 参考訳(メタデータ) (2020-11-14T19:51:51Z) - A survey on natural language processing (nlp) and applications in
insurance [4.040320146147257]
本稿では,NLP(Natural Language Processing)が保険を提供する機会を説明する。
現在使われている様々な方法の詳細は、その物語にさかのぼる。
また,オープンソースライブラリとpythonコードを用いた特定のメソッドの実装についても解説する。
論文 参考訳(メタデータ) (2020-10-01T14:56:18Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。