論文の概要: The Unreasonable Effectiveness of the Baseline: Discussing SVMs in Legal
Text Classification
- arxiv url: http://arxiv.org/abs/2109.07234v1
- Date: Wed, 15 Sep 2021 12:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:05:35.664559
- Title: The Unreasonable Effectiveness of the Baseline: Discussing SVMs in Legal
Text Classification
- Title(参考訳): ベースラインの不合理な有効性:法的テキスト分類におけるSVMの議論
- Authors: Benjamin Clavi\'e and Marc Alphonsus
- Abstract要約: サポートベクトルマシン分類器に基づくより伝統的なアプローチは、ディープラーニングモデルと競合する性能に達することを示す。
また,ベースライン上の特定BERTモデルを用いて得られた誤差の低減は,一般的な言語タスクと比較して法域において顕著に小さいことを強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We aim to highlight an interesting trend to contribute to the ongoing debate
around advances within legal Natural Language Processing. Recently, the focus
for most legal text classification tasks has shifted towards large pre-trained
deep learning models such as BERT. In this paper, we show that a more
traditional approach based on Support Vector Machine classifiers reaches
competitive performance with deep learning models. We also highlight that error
reduction obtained by using specialised BERT-based models over baselines is
noticeably smaller in the legal domain when compared to general language tasks.
We discuss some hypotheses for these results to support future discussions.
- Abstract(参考訳): 我々は、法律自然言語処理における進歩に関する議論に引き続き貢献する興味深い傾向を強調したい。
近年,ほとんどの法的テキスト分類タスクは,BERTのような大規模学習モデルにシフトしている。
本稿では,サポートベクタマシン分類器に基づく従来型アプローチが,ディープラーニングモデルと競合する性能に達することを示す。
また,ベースライン上での特定BERTモデルを用いた誤差低減は,一般的な言語タスクと比較して法域において顕著に小さいことを強調した。
今後の議論を支援するための仮説を議論する。
関連論文リスト
- Manual Verbalizer Enrichment for Few-Shot Text Classification [1.860409237919611]
acrshortmaveは、クラスラベルの豊か化による動詞化のためのアプローチである。
本モデルでは, 資源を著しく減らしながら, 最先端の成果が得られている。
論文 参考訳(メタデータ) (2024-10-08T16:16:47Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Enhancing Legal Argument Mining with Domain Pre-training and Neural
Networks [0.45119235878273]
文脈単語埋め込みモデルであるBERTは、限られた量の注釈付きデータで下流タスクにその能力を証明した。
BERTとその変種は、多くの学際的な研究領域における複雑なアノテーション作業の負担を軽減するのに役立つ。
論文 参考訳(メタデータ) (2022-02-27T21:24:53Z) - Interpretable Low-Resource Legal Decision Making [17.734489612020994]
本稿では,法的文書に有効であることを示す手法である,モデルに依存しない解釈可能な中間層を提案する。
カリキュラム学習戦略を用いて、弱教師付き学習を活用し、深層学習モデルの性能向上を効果的に実証する。
論文 参考訳(メタデータ) (2022-01-01T20:34:35Z) - LegaLMFiT: Efficient Short Legal Text Classification with LSTM Language
Model Pre-Training [0.0]
BERTのようなトランスフォーマーベースの大規模言語モデルは、多くのNLPタスクにおいて広範なパフォーマンス改善をもたらした。
法的なNLPでは、BERTベースのモデルが複数のタスクに対して新たな最先端の結果をもたらしている。
LSTMをベースとした軽量言語モデルでは,小さな法定テキスト事前学習コーパスから十分な情報を抽出し,短い法定テキスト分類タスクにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-09-02T14:45:04Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Comparing the Performance of NLP Toolkits and Evaluation measures in
Legal Tech [0.0]
我々は,事前訓練されたニューラルネットワークモデル,XLNet(autoregressive),BERT(autoencoder)を比較し,分析する。
XLNet Modelは法定オピニオン分類のシーケンス分類タスクで、BERTはNERタスクで、より良い結果を生成する。
bertモデルをさらに法的ドメインに適用するために、ドメイン固有の事前トレーニングと追加の法的語彙を使用します。
論文 参考訳(メタデータ) (2021-03-12T11:06:32Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Discriminatively-Tuned Generative Classifiers for Robust Natural
Language Inference [59.62779187457773]
自然言語推論のための生成型分類器(NLI)を提案する。
差別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較する。
実験の結果、GenNLIはいくつかの挑戦的なNLI実験環境において差別的ベースラインと事前訓練ベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2020-10-08T04:44:00Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。