論文の概要: Classification of US Supreme Court Cases using BERT-Based Techniques
- arxiv url: http://arxiv.org/abs/2304.08649v1
- Date: Mon, 17 Apr 2023 22:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 16:23:26.264328
- Title: Classification of US Supreme Court Cases using BERT-Based Techniques
- Title(参考訳): BERT法に基づく米国最高裁判所判例の分類
- Authors: Shubham Vatsal, Adam Meyers and John Ortega
- Abstract要約: 我々は、米国最高裁判所判決または最高裁判所データベース(SCDB)のためのBERTに基づくいくつかの分類手法の実験を行った。
次に、長いドキュメントのSOTAモデルと結果を比較します。
その結果,15のカテゴリで80%,細粒度279のカテゴリで60%の精度が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Models based on bidirectional encoder representations from transformers
(BERT) produce state of the art (SOTA) results on many natural language
processing (NLP) tasks such as named entity recognition (NER), part-of-speech
(POS) tagging etc. An interesting phenomenon occurs when classifying long
documents such as those from the US supreme court where BERT-based models can
be considered difficult to use on a first-pass or out-of-the-box basis. In this
paper, we experiment with several BERT-based classification techniques for US
supreme court decisions or supreme court database (SCDB) and compare them with
the previous SOTA results. We then compare our results specifically with SOTA
models for long documents. We compare our results for two classification tasks:
(1) a broad classification task with 15 categories and (2) a fine-grained
classification task with 279 categories. Our best result produces an accuracy
of 80\% on the 15 broad categories and 60\% on the fine-grained 279 categories
which marks an improvement of 8\% and 28\% respectively from previously
reported SOTA results.
- Abstract(参考訳): 変換器(BERT)からの双方向エンコーダ表現に基づくモデルは、名前付きエンティティ認識(NER)やPOSタグ付け(part-of-speech)といった多くの自然言語処理(NLP)タスクに対して、SOTA(State of the Art)結果を生成する。
興味深い現象は、BERTベースのモデルは、ファーストパスまたはアウト・オブ・ボックスベースでの使用が困難であると考えられる米国最高裁判所のような長い文書を分類する際に発生する。
本稿では,米国最高裁判所判決や最高裁判所データベース(SCDB)のためのBERTに基づく分類手法を実験し,以前のSOTA結果と比較する。
次に、長いドキュメントのSOTAモデルと結果を比較します。
その結果,(1)15カテゴリーの広い分類課題と(2)279カテゴリーの細粒度分類課題の2つの分類課題について比較した。
その結果,これまでに報告したsomaの結果から,それぞれ8\%,28\%の改善率を示す279カテゴリで80\%,細粒度で60\%の精度が得られた。
関連論文リスト
- A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。
私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。
本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文 参考訳(メタデータ) (2024-07-24T13:50:21Z) - Classifying complex documents: comparing bespoke solutions to large
language models [0.0]
我々の目的は、12の州と267の郡から9つのサブカテゴリを使って3万件の公庁舎の記録を2つの異なるレベルに分類することである。
具体的には、細調整された大規模言語モデル(LLM)が、カスタムトレーニングモデルの精度を達成できるかどうかを検討した。
論文 参考訳(メタデータ) (2023-12-12T11:38:09Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Task Adaptive Pretraining of Transformers for Hostility Detection [11.306581296760864]
a)ヒンディー語のツイートの粗い二分分類を敵対的か否か、b)ツイートのきめ細かい多重ラベル分類を4つのカテゴリ(ヘイト、フェイク、アグレッシブ、デマネーション)に分類する。
本システムでは, 粗粒度検出のF1スコアが97.16%, 重み付きF1スコアが62.96%, 得られたブラインドテストコーパスの細粒度多ラベル分類のF1スコアが62.96%であった。
論文 参考訳(メタデータ) (2021-01-09T15:45:26Z) - Cooperative Bi-path Metric for Few-shot Learning [50.98891758059389]
数発の分類問題の調査に2つの貢献をしている。
本稿では,従来の教師あり学習法において,ベースクラスで訓練されたシンプルで効果的なベースラインについて報告する。
本稿では, 基礎クラスと新しいクラス間の相関を利用して, 精度の向上を図る, 分類のための協調的二経路計量を提案する。
論文 参考訳(メタデータ) (2020-08-10T11:28:52Z) - A Study on Efficiency, Accuracy and Document Structure for Answer
Sentence Selection [112.0514737686492]
本稿では,単語関連エンコーダとともに,原語階の内在的構造を活用すれば,競争的な結果が得られることを論じる。
私たちのモデルはWikiQAデータセットでトレーニングするのに9.5秒かかります。
論文 参考訳(メタデータ) (2020-03-04T22:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。