Fugu-MT 論文翻訳(概要): Automatic Detection of Industry Sectors in Legal Articles Using Machine Learning Approaches

論文の概要: Automatic Detection of Industry Sectors in Legal Articles Using Machine Learning Approaches

arxiv url: http://arxiv.org/abs/2303.05387v1
Date: Wed, 8 Mar 2023 12:41:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-10 14:04:21.098579
Title: Automatic Detection of Industry Sectors in Legal Articles Using Machine Learning Approaches
Title（参考訳）: 機械学習を用いた法律記事における産業セクターの自動検出
Authors: Hui Yang (1 and 2), Stella Hadjiantoni (1), Yunfei Long (3), Ruta Petraityte (2), Berthold Lausen (1 and 4) ((1) Department of Mathematical Sciences, University of Essex, Wivenhoe Park, Colchester, CO43SQ, UK, (2) Mondaq Ltd, Bristol, UK, (3) School of Computer Science and Electronic Engineering, University of Essex, Wivenhoe Park, Colchester, CO43SQ, UK, (4) Institute of Medical Informatics, Biometry and Epidemiology, School of Medicine, Friedrich-Alexander University Erlangen-Nuremberg, Waldstr. 6, Erlangen, 91054, Germany)
Abstract要約: 1,700以上の注釈付き法律論文からなるデータセットが6つの産業セクターの識別のために作成された。このシステムは、6つの産業セクターに対して0.90以上の特性曲線と0.81以上のFスコアを受信機が操作する領域で有望な結果を得た。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to automatically identify industry sector coverage in articles on legal developments, or any kind of news articles for that matter, can bring plentiful of benefits both to the readers and the content creators themselves. By having articles tagged based on industry coverage, readers from all around the world would be able to get to legal news that are specific to their region and professional industry. Simultaneously, writers would benefit from understanding which industries potentially lack coverage or which industries readers are currently mostly interested in and thus, they would focus their writing efforts towards more inclusive and relevant legal news coverage. In this paper, a Machine Learning-powered industry analysis approach which combined Natural Language Processing (NLP) with Statistical and Machine Learning (ML) techniques was investigated. A dataset consisting of over 1,700 annotated legal articles was created for the identification of six industry sectors. Text and legal based features were extracted from the text. Both traditional ML methods (e.g. gradient boosting machine algorithms, and decision-tree based algorithms) and deep neural network (e.g. transformer models) were applied for performance comparison of predictive models. The system achieved promising results with area under the receiver operating characteristic curve scores above 0.90 and F-scores above 0.81 with respect to the six industry sectors. The experimental results show that the suggested automated industry analysis which employs ML techniques allows the processing of large collections of text data in an easy, efficient, and scalable way. Traditional ML methods perform better than deep neural networks when only a small and domain-specific training data is available for the study.
Abstract（参考訳）: 法律開発に関する記事や、それに関するどんな種類のニュース記事でも、業界セクターのカバレッジを自動的に識別できる能力は、読者とコンテンツクリエーター自身の双方に多くの利益をもたらす。業界の報道に基づいて記事にタグを付けることで、世界中の読者は、自分たちの地域や専門業界特有の法的ニュースを得られるようになるだろう。同時に、ライターは、どの業界がカバー範囲を欠いているか、あるいは現在どの業界読者が関心を持っているのかを理解し、より包括的で関連する法的ニュースの報道に彼らの執筆努力を集中させることで利益を得るだろう。本稿では,自然言語処理(NLP)と統計的・機械学習(ML)技術を組み合わせた機械学習産業分析手法を提案する。 1,700以上の注釈付き法律論文からなるデータセットが6つの産業セクターの識別のために作成された。テキストと法律に基づく特徴がテキストから抽出された。予測モデルの性能比較には、従来のML手法(勾配向上マシンアルゴリズムや決定木に基づくアルゴリズムなど)とディープニューラルネットワーク(トランスフォーマーモデルなど)がそれぞれ適用された。このシステムは、6つの産業分野について0.90以上の特性曲線と0.81以上のFスコアを受信機で操作する領域で有望な結果を得た。実験結果から,ML技術を用いた産業の自動分析により,大量のテキストデータを,簡単かつ効率的かつスケーラブルな方法で処理できることが示唆された。従来のmlメソッドは、研究のために小さなドメイン固有のトレーニングデータしか利用できない場合、ディープニューラルネットワークよりもパフォーマンスが良い。

関連論文リスト

Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。コード、事前トレーニングされたウェイト、デモがリリースされる。
論文参考訳（メタデータ） (2025-10-07T08:14:45Z)
Exploratory Semantic Reliability Analysis of Wind Turbine Maintenance Logs using Large Language Models [0.0]
本稿では、より複雑な推論タスクに現代大規模言語モデル(LLM)を活用する際のギャップについて論じる。我々は,LLMを用いた探索的フレームワークを導入し,分類を超えて意味分析を行う。以上の結果から,LSMは,テキスト情報や行動可能な専門家レベルの仮説を合成するためにラベル付けを超えて,強力な"信頼性共パイロット"として機能できることが示唆された。
論文参考訳（メタデータ） (2025-09-26T14:00:20Z)
Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。生成したテキストの強力な検出器を開発することがますます重要になっている。この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文参考訳（メタデータ） (2024-11-09T18:27:15Z)
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
Uncovering Key Trends in Industry 5.0 through Advanced AI Techniques [0.0]
本稿では,約200のオンライン記事を分析し,人工知能技術を用いて産業5.0のトレンドを特定する。結果は、中核的なテーマの集合に収束し、また、産業5.0は幅広いトピックにまたがっていることを強調している。
論文参考訳（メタデータ） (2024-10-22T07:06:00Z)
LLM-DetectAIve: a Tool for Fine-Grained Machine-Generated Text Detection [87.43727192273772]
テキストが人間の書いたものなのか、機械で作られたものなのかを判断するのは、しばしば困難である。細粒度検出のためのLLM-DetectAIveを提案する。 i) 人書き、ii) 機械生成、(iii) 機械書、次いで機械書、(iv) 人書き、そして機械ポリッシュの4つのカテゴリをサポートする。
論文参考訳（メタデータ） (2024-08-08T07:43:17Z)
Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection [71.93411099797308]
オープンワールドシナリオに機械学習モデルをデプロイする場合、アウト・オブ・ディストリビューション(OOD)サンプルは不可欠である。本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,この制約に対処することを提案する。 EOEは、遠、近、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。 EOEは様々なOODタスクで最先端のパフォーマンスを実現し、ImageNet-1Kデータセットに効果的にスケールできる。
論文参考訳（メタデータ） (2024-06-02T17:09:48Z)
Automatic explanation of the classification of Spanish legal judgments in jurisdiction-dependent law categories with tree estimators [6.354358255072839]
この研究は、自然言語処理(NLP)と機械学習(ML)を組み合わせて、法的テキストを説明可能な方法で分類するシステムに寄与する。木構造決定経路の閾値分岐値と決定に関わる特徴を解析する。法の専門家は我々の解決策を検証しており、この知識は「ループのエキスパート」辞書として説明のプロセスにも組み込まれている。
論文参考訳（メタデータ） (2024-03-30T17:59:43Z)
Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文参考訳（メタデータ） (2023-07-05T20:16:20Z)
Application of Transformers based methods in Electronic Medical Records: A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文参考訳（メタデータ） (2023-04-05T22:19:42Z)
RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced Labour [4.393754160527062]
本稿では,マルチクラスおよび複数ラベルの強制労働検出のための注釈付き英語コーパスについて紹介する。コーパスは、国際労働機関(ILO)が定めるリスク指標に従って、専門データソースから検索した989のニュース記事で構成されている。
論文参考訳（メタデータ） (2022-05-05T14:43:31Z)
Rebuilding Trust in Active Learning with Actionable Metrics [77.99796068970569]
アクティブラーニング(AL)は研究の活発な領域であるが、プレッシャーのあるニーズにもかかわらず、業界ではほとんど使われない。これは部分的には目的のずれによるものであり、研究は選択したデータセットで最高の結果を得るよう努力している。積極的学習における産業実践者の信頼回復を支援するために,様々な活動可能な指標を提示する。
論文参考訳（メタデータ） (2020-12-18T09:34:59Z)
Supervised Text Classification using Text Search [0.0]
著者は、事前にラベル付けされたテキストデータの分類を正確に予測できる産業標準アルゴリズムのクラスを記述している。これらのアルゴリズムは、適切なチームへの発行チケットのルーティングを自動化するために使用された。
論文参考訳（メタデータ） (2020-11-14T19:51:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。