論文の概要: The Unreasonable Effectiveness of the Baseline: Discussing SVMs in Legal
Text Classification
- arxiv url: http://arxiv.org/abs/2109.07234v1
- Date: Wed, 15 Sep 2021 12:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:05:35.664559
- Title: The Unreasonable Effectiveness of the Baseline: Discussing SVMs in Legal
Text Classification
- Title(参考訳): ベースラインの不合理な有効性:法的テキスト分類におけるSVMの議論
- Authors: Benjamin Clavi\'e and Marc Alphonsus
- Abstract要約: サポートベクトルマシン分類器に基づくより伝統的なアプローチは、ディープラーニングモデルと競合する性能に達することを示す。
また,ベースライン上の特定BERTモデルを用いて得られた誤差の低減は,一般的な言語タスクと比較して法域において顕著に小さいことを強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We aim to highlight an interesting trend to contribute to the ongoing debate
around advances within legal Natural Language Processing. Recently, the focus
for most legal text classification tasks has shifted towards large pre-trained
deep learning models such as BERT. In this paper, we show that a more
traditional approach based on Support Vector Machine classifiers reaches
competitive performance with deep learning models. We also highlight that error
reduction obtained by using specialised BERT-based models over baselines is
noticeably smaller in the legal domain when compared to general language tasks.
We discuss some hypotheses for these results to support future discussions.
- Abstract(参考訳): 我々は、法律自然言語処理における進歩に関する議論に引き続き貢献する興味深い傾向を強調したい。
近年,ほとんどの法的テキスト分類タスクは,BERTのような大規模学習モデルにシフトしている。
本稿では,サポートベクタマシン分類器に基づく従来型アプローチが,ディープラーニングモデルと競合する性能に達することを示す。
また,ベースライン上での特定BERTモデルを用いた誤差低減は,一般的な言語タスクと比較して法域において顕著に小さいことを強調した。
今後の議論を支援するための仮説を議論する。
関連論文リスト
- Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Contextualization and Generalization in Entity and Relation Extraction [0.0]
本研究では、訓練中に見えない事実への一般化に関する最先端モデルの振る舞いについて検討する。
従来のベンチマークは、トレーニングとモデル評価に使用される言及と関係の間に重要な語彙的重複を示す。
本稿では,トレーニングセットと重複する言及と関連性に基づいて,パフォーマンスを分離するための実証的研究を提案する。
論文 参考訳(メタデータ) (2022-06-15T14:16:42Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Enhancing Legal Argument Mining with Domain Pre-training and Neural
Networks [0.45119235878273]
文脈単語埋め込みモデルであるBERTは、限られた量の注釈付きデータで下流タスクにその能力を証明した。
BERTとその変種は、多くの学際的な研究領域における複雑なアノテーション作業の負担を軽減するのに役立つ。
論文 参考訳(メタデータ) (2022-02-27T21:24:53Z) - Interpretable Low-Resource Legal Decision Making [17.734489612020994]
本稿では,法的文書に有効であることを示す手法である,モデルに依存しない解釈可能な中間層を提案する。
カリキュラム学習戦略を用いて、弱教師付き学習を活用し、深層学習モデルの性能向上を効果的に実証する。
論文 参考訳(メタデータ) (2022-01-01T20:34:35Z) - LegaLMFiT: Efficient Short Legal Text Classification with LSTM Language
Model Pre-Training [0.0]
BERTのようなトランスフォーマーベースの大規模言語モデルは、多くのNLPタスクにおいて広範なパフォーマンス改善をもたらした。
法的なNLPでは、BERTベースのモデルが複数のタスクに対して新たな最先端の結果をもたらしている。
LSTMをベースとした軽量言語モデルでは,小さな法定テキスト事前学習コーパスから十分な情報を抽出し,短い法定テキスト分類タスクにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-09-02T14:45:04Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Comparing the Performance of NLP Toolkits and Evaluation measures in
Legal Tech [0.0]
我々は,事前訓練されたニューラルネットワークモデル,XLNet(autoregressive),BERT(autoencoder)を比較し,分析する。
XLNet Modelは法定オピニオン分類のシーケンス分類タスクで、BERTはNERタスクで、より良い結果を生成する。
bertモデルをさらに法的ドメインに適用するために、ドメイン固有の事前トレーニングと追加の法的語彙を使用します。
論文 参考訳(メタデータ) (2021-03-12T11:06:32Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Discriminatively-Tuned Generative Classifiers for Robust Natural
Language Inference [59.62779187457773]
自然言語推論のための生成型分類器(NLI)を提案する。
差別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較する。
実験の結果、GenNLIはいくつかの挑戦的なNLI実験環境において差別的ベースラインと事前訓練ベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2020-10-08T04:44:00Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。