論文の概要: Automatic Detection of Industry Sectors in Legal Articles Using Machine
Learning Approaches
- arxiv url: http://arxiv.org/abs/2303.05387v1
- Date: Wed, 8 Mar 2023 12:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:04:21.098579
- Title: Automatic Detection of Industry Sectors in Legal Articles Using Machine
Learning Approaches
- Title(参考訳): 機械学習を用いた法律記事における産業セクターの自動検出
- Authors: Hui Yang (1 and 2), Stella Hadjiantoni (1), Yunfei Long (3), Ruta
Petraityte (2), Berthold Lausen (1 and 4) ((1) Department of Mathematical
Sciences, University of Essex, Wivenhoe Park, Colchester, CO43SQ, UK, (2)
Mondaq Ltd, Bristol, UK, (3) School of Computer Science and Electronic
Engineering, University of Essex, Wivenhoe Park, Colchester, CO43SQ, UK, (4)
Institute of Medical Informatics, Biometry and Epidemiology, School of
Medicine, Friedrich-Alexander University Erlangen-Nuremberg, Waldstr. 6,
Erlangen, 91054, Germany)
- Abstract要約: 1,700以上の注釈付き法律論文からなるデータセットが6つの産業セクターの識別のために作成された。
このシステムは、6つの産業セクターに対して0.90以上の特性曲線と0.81以上のFスコアを受信機が操作する領域で有望な結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to automatically identify industry sector coverage in articles on
legal developments, or any kind of news articles for that matter, can bring
plentiful of benefits both to the readers and the content creators themselves.
By having articles tagged based on industry coverage, readers from all around
the world would be able to get to legal news that are specific to their region
and professional industry. Simultaneously, writers would benefit from
understanding which industries potentially lack coverage or which industries
readers are currently mostly interested in and thus, they would focus their
writing efforts towards more inclusive and relevant legal news coverage. In
this paper, a Machine Learning-powered industry analysis approach which
combined Natural Language Processing (NLP) with Statistical and Machine
Learning (ML) techniques was investigated. A dataset consisting of over 1,700
annotated legal articles was created for the identification of six industry
sectors. Text and legal based features were extracted from the text. Both
traditional ML methods (e.g. gradient boosting machine algorithms, and
decision-tree based algorithms) and deep neural network (e.g. transformer
models) were applied for performance comparison of predictive models. The
system achieved promising results with area under the receiver operating
characteristic curve scores above 0.90 and F-scores above 0.81 with respect to
the six industry sectors. The experimental results show that the suggested
automated industry analysis which employs ML techniques allows the processing
of large collections of text data in an easy, efficient, and scalable way.
Traditional ML methods perform better than deep neural networks when only a
small and domain-specific training data is available for the study.
- Abstract(参考訳): 法律開発に関する記事や、それに関するどんな種類のニュース記事でも、業界セクターのカバレッジを自動的に識別できる能力は、読者とコンテンツクリエーター自身の双方に多くの利益をもたらす。
業界の報道に基づいて記事にタグを付けることで、世界中の読者は、自分たちの地域や専門業界特有の法的ニュースを得られるようになるだろう。
同時に、ライターは、どの業界がカバー範囲を欠いているか、あるいは現在どの業界読者が関心を持っているのかを理解し、より包括的で関連する法的ニュースの報道に彼らの執筆努力を集中させることで利益を得るだろう。
本稿では,自然言語処理(NLP)と統計的・機械学習(ML)技術を組み合わせた機械学習産業分析手法を提案する。
1,700以上の注釈付き法律論文からなるデータセットが6つの産業セクターの識別のために作成された。
テキストと法律に基づく特徴がテキストから抽出された。
予測モデルの性能比較には、従来のML手法(勾配向上マシンアルゴリズムや決定木に基づくアルゴリズムなど)とディープニューラルネットワーク(トランスフォーマーモデルなど)がそれぞれ適用された。
このシステムは、6つの産業分野について0.90以上の特性曲線と0.81以上のFスコアを受信機で操作する領域で有望な結果を得た。
実験結果から,ML技術を用いた産業の自動分析により,大量のテキストデータを,簡単かつ効率的かつスケーラブルな方法で処理できることが示唆された。
従来のmlメソッドは、研究のために小さなドメイン固有のトレーニングデータしか利用できない場合、ディープニューラルネットワークよりもパフォーマンスが良い。
関連論文リスト
- Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。
生成したテキストの強力な検出器を開発することがますます重要になっている。
この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文 参考訳(メタデータ) (2024-11-09T18:27:15Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Uncovering Key Trends in Industry 5.0 through Advanced AI Techniques [0.0]
本稿では,約200のオンライン記事を分析し,人工知能技術を用いて産業5.0のトレンドを特定する。
結果は、中核的なテーマの集合に収束し、また、産業5.0は幅広いトピックにまたがっていることを強調している。
論文 参考訳(メタデータ) (2024-10-22T07:06:00Z) - LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。
細粒度検出のためのLLM-DetectAIveを提案する。
i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文 参考訳(メタデータ) (2024-08-08T07:43:17Z) - Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。
本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。
EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。
EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-02T17:09:48Z) - Automatic explanation of the classification of Spanish legal judgments in jurisdiction-dependent law categories with tree estimators [6.354358255072839]
この研究は、自然言語処理(NLP)と機械学習(ML)を組み合わせて、法的テキストを説明可能な方法で分類するシステムに寄与する。
木構造決定経路の閾値分岐値と決定に関わる特徴を解析する。
法の専門家は我々の解決策を検証しており、この知識は「ループのエキスパート」辞書として説明のプロセスにも組み込まれている。
論文 参考訳(メタデータ) (2024-03-30T17:59:43Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced
Labour [4.393754160527062]
本稿では,マルチクラスおよび複数ラベルの強制労働検出のための注釈付き英語コーパスについて紹介する。
コーパスは、国際労働機関(ILO)が定めるリスク指標に従って、専門データソースから検索した989のニュース記事で構成されている。
論文 参考訳(メタデータ) (2022-05-05T14:43:31Z) - Rebuilding Trust in Active Learning with Actionable Metrics [77.99796068970569]
アクティブラーニング(AL)は研究の活発な領域であるが、プレッシャーのあるニーズにもかかわらず、業界ではほとんど使われない。
これは部分的には目的のずれによるものであり、研究は選択したデータセットで最高の結果を得るよう努力している。
積極的学習における産業実践者の信頼回復を支援するために,様々な活動可能な指標を提示する。
論文 参考訳(メタデータ) (2020-12-18T09:34:59Z) - Supervised Text Classification using Text Search [0.0]
著者は、事前にラベル付けされたテキストデータの分類を正確に予測できる産業標準アルゴリズムのクラスを記述している。
これらのアルゴリズムは、適切なチームへの発行チケットのルーティングを自動化するために使用された。
論文 参考訳(メタデータ) (2020-11-14T19:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。