論文の概要: verBERT: Automating Brazilian Case Law Document Multi-label
Categorization Using BERT
- arxiv url: http://arxiv.org/abs/2203.06224v1
- Date: Fri, 11 Mar 2022 20:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 04:56:13.933148
- Title: verBERT: Automating Brazilian Case Law Document Multi-label
Categorization Using BERT
- Title(参考訳): VerBERT: BERTを使用したブラジルの事例法文書マルチラベル分類の自動化
- Authors: Felipe R. Serras and Marcelo Finger
- Abstract要約: Kollemata Projectのデータを使って、適切なクラスシステムを持つ2つの異なるデータセットを生成しました。
我々は、BERTのマルチクラスおよびマルチラベルバージョンを実装し、生成したデータセットで様々なBERTモデルを微調整した。
- 参考スコア(独自算出の注目度): 1.3198689566654105
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we carried out a study about the use of attention-based
algorithms to automate the categorization of Brazilian case law documents. We
used data from the Kollemata Project to produce two distinct datasets with
adequate class systems. Then, we implemented a multi-class and multi-label
version of BERT and fine-tuned different BERT models with the produced
datasets. We evaluated several metrics, adopting the micro-averaged F1-Score as
our main metric for which we obtained a performance value of F1-micro=0.72
corresponding to gains of 30 percent points over the tested statistical
baseline. In this work, we carried out a study about the use of attention-based
algorithms to automate the categorization of Brazilian case law documents. We
used data from the \textit{Kollemata} Project to produce two distinct datasets
with adequate class systems. Then, we implemented a multi-class and multi-label
version of BERT and fine-tuned different BERT models with the produced
datasets. We evaluated several metrics, adopting the micro-averaged F1-Score as
our main metric for which we obtained a performance value of $\langle
\mathcal{F}_1 \rangle_{micro}=0.72$ corresponding to gains of 30 percent points
over the tested statistical baseline.
- Abstract(参考訳): 本研究では,ブラジルの事例法文書の分類を自動化するために注意に基づくアルゴリズムを用いた研究を行った。
Kollemata Projectのデータを使って、適切なクラスシステムを持つ2つの異なるデータセットを生成しました。
そこで本研究では,BERTのマルチクラス・マルチラベルバージョンと,生成したデータセットを用いて細調整されたさまざまなBERTモデルを実装した。
我々は,F1-micro=0.72の性能値が,試験された統計基準値の30%の利得に対応して得られたF1-micro=0.72を主指標として,F1-Scoreの評価を行った。
本研究では,ブラジルの事例法文書の分類を自動化するために注意に基づくアルゴリズムを用いた研究を行った。
私たちは、textit{Kollemata} Projectのデータを使って、適切なクラスシステムを持つ2つの異なるデータセットを生成しました。
そこで本研究では,BERTのマルチクラス・マルチラベルバージョンと,生成したデータセットを用いて細調整されたさまざまなBERTモデルを実装した。
評価指標としてF1-Scoreを主指標とし, 検定された統計基準値の30%の利得に応じて, $\langle \mathcal{F}_1 \rangle_{micro}=0.72$という性能値を得た。
関連論文リスト
- A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。
私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。
本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文 参考訳(メタデータ) (2024-07-24T13:50:21Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - Alibaba-Translate China's Submission for WMT 2022 Metrics Shared Task [61.34108034582074]
私たちはUNITE(Unified Translation Evaluation)のコアアイデアに基づいてシステムを構築します。
モデル事前学習の段階では、まず擬似ラベル付きデータ例をUNITEの継続事前訓練に適用する。
微調整の段階では、過去のWMTコンペティションの直接評価(DA)と多次元品質メトリクス(MQM)のデータの両方を使用します。
論文 参考訳(メタデータ) (2022-10-18T08:51:25Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - BERT based sentiment analysis: A software engineering perspective [0.9176056742068814]
本稿では、感情分析のためのBERTモデルを分析するための3つの戦略を提案する。
実験結果から, BERTに基づくアンサンブル手法と圧縮BERTモデルにより, 3つのデータセットのF1測定ツールよりも6-12%向上したことがわかった。
論文 参考訳(メタデータ) (2021-06-04T16:28:26Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Predicting Multiple ICD-10 Codes from Brazilian-Portuguese Clinical
Notes [4.971638713979981]
我々は,ロジスティック回帰モデル,畳み込みニューラルネットワーク (CNN) , Gated Recurrent Unit Neural Network, CNN を開発した。
MIMIC-IIIと比較すると、ブラジルのポルトガル語のデータセットは1文書あたりの単語がはるかに少ない。
CNN-Attモデルでは,MIMIC-IIIでは平均0.537点,追加文書では0.485点のマイクロ平均F1スコアが得られた。
論文 参考訳(メタデータ) (2020-07-29T22:12:26Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。