論文の概要: LegalBench-BR: A Benchmark for Evaluating Large Language Models on Brazilian Legal Decision Classification
- arxiv url: http://arxiv.org/abs/2604.18878v1
- Date: Mon, 20 Apr 2026 22:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.517635
- Title: LegalBench-BR: A Benchmark for Evaluating Large Language Models on Brazilian Legal Decision Classification
- Title(参考訳): LegalBench-BR:ブラジルの法律決定分類における大規模言語モデル評価ベンチマーク
- Authors: Pedro Barbosa de Carvalho Neto,
- Abstract要約: ブラジルの法律テキスト分類における言語モデル評価のための最初の公開ベンチマークであるLegalBench-BRを紹介する。
データセットは、サンタカタリーナ州裁判所(TJSC)による3,105の手続きからなる。
クラスバランステストセットでは、BERTimbau-LoRAは87.6%の精度と0.87のマクロF1を達成する(Claude 3.5 Haikuより+22pp、GPT-4o miniより+28pp)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LegalBench-BR, the first public benchmark for evaluating language models on Brazilian legal text classification. The dataset comprises 3,105 appellate proceedings from the Santa Catarina State Court (TJSC), collected via the DataJud API (CNJ) and annotated across five legal areas through LLM-assisted labeling with heuristic validation. On a class-balanced test set, BERTimbau-LoRA, updating only 0.3% of model parameters, achieves 87.6% accuracy and 0.87 macro-F1 (+22pp over Claude 3.5 Haiku, +28pp over GPT-4o mini). The gap is most striking on administrativo (administrative law): GPT-4o mini scores F1 = 0.00 and Claude 3.5 Haiku scores F1 = 0.08 on this class, while the fine-tuned model reaches F1 = 0.91. Both commercial LLMs exhibit a systematic bias toward civel (civil law), absorbing ambiguous classes rather than discriminating them, a failure mode that domain-adapted fine-tuning eliminates. These results demonstrate that general-purpose LLMs cannot substitute for domain-adapted models in Brazilian legal classification, even when the task is a simple 5-class problem, and that LoRA fine-tuning on a consumer GPU closes the gap at zero marginal inference cost. We release the full dataset, model, and pipeline to enable reproducible research in Portuguese legal NLP.
- Abstract(参考訳): ブラジルの法律テキスト分類における言語モデル評価のための最初の公開ベンチマークであるLegalBench-BRを紹介する。
このデータセットは、Santa Catarina State Court (TJSC) からの3,105の手続きからなり、DataJud API (CNJ) を通じて収集され、LLM支援ラベルとヒューリスティック検証によって5つの法的領域にアノテートされる。
クラスバランステストセットでは、モデルパラメータの0.3%しか更新していないBERTimbau-LoRAは、87.6%の精度と0.87のマクロF1を達成する(Claude 3.5 Haikuより+22pp、GPT-4o miniより+28pp)。
GPT-4o mini scores F1 = 0.00 and Claude 3.5 Haiku scores F1 = 0.08 on this class, while the fine-tuned model reach F1 = 0.91。
両方の商業LLMは、シベル(市民法則)に対する体系的な偏見を示し、区別するよりもあいまいなクラスを吸収する。
これらの結果は,タスクが単純な5クラス問題である場合でも,汎用LLMはブラジルの法体系分類においてドメイン適応モデルに代えてはならないことを示し,コンシューマGPU上でのLoRA微調整は限界推論コストゼロでギャップを埋めることを示した。
ポルトガルの法的NLPにおける再現可能な研究を可能にするために、完全なデータセット、モデル、パイプラインをリリースする。
関連論文リスト
- Do We Still Need Humans in the Loop? Comparing Human and LLM Annotation in Active Learning for Hostility Detection [68.37351671559675]
アクティブな学習は、無視可能なコストで短いプロンプトから何千ものインスタンスに注釈を付けることができる。
LLMラベルはALループ内で人間のラベルを置き換えることができ、ALはコーパス全体を一度にラベル付けできるときに必要か?
277,902人のドイツの政治的TikTokコメントの新しいデータセットについて、両方の質問を調査した。
論文 参考訳(メタデータ) (2026-04-15T14:10:58Z) - Benchmarking Linguistic Adaptation in Comparable-Sized LLMs: A Study of Llama-3.1-8B, Mistral-7B-v0.1, and Qwen3-8B on Romanized Nepali [0.0]
ネパール語はラテン文字で書かれたネパール語であり、ネパールにおける非公式なデジタルコミュニケーションの主流となっている。
本研究では、3つの同等サイズのオープンウェイトモデルにまたがる言語適応の系統的ベンチマークを示す。
論文 参考訳(メタデータ) (2026-03-25T07:02:51Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Relative Scaling Laws for LLMs [91.73497548097775]
スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。
相対的なスケーリング法則を導入し、テスト分布間のパフォーマンスギャップをスケールで追跡する。
これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
論文 参考訳(メタデータ) (2025-10-28T16:55:22Z) - Text to Trust: Evaluating Fine-Tuning and LoRA Trade-offs in Language Models for Unfair Terms of Service Detection [0.0]
大規模言語モデル (LLM) はテキスト理解に変化をもたらしたが、専門の法域への適応は、完全な微調整のコストによって制限されている。
本研究は、サービス規約(ToS)文書において、微調整、パラメータ効率適応(LoRA、QLoRA)、不公平な節検出のためのゼロショットプロンプト戦略を体系的に評価する。
CLAUDETTE-ToSベンチマークとMultilingual Scraper Corpusの実験では、完全な微調整が最大の精度のリコールバランスを達成する一方、LoRAベースのモデルは最大3倍のメモリコストで競合リコールを提供する。
論文 参考訳(メタデータ) (2025-10-26T04:46:06Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - BA-LoRA: Bias-Alleviating Low-Rank Adaptation to Mitigate Catastrophic Inheritance in Large Language Models [17.873016968298483]
LoRAのような低ランク適応法は「カタストロフィック継承」を悪化させる
Bias-Alleviating Low-Rank Adaptation (BA-LoRA)を紹介する。
以上の結果から,BA-LoRAは性能および安定性の点で最先端のLoRAよりも優れるだけでなく,目標評価に対する頑健性とバイアス軽減の定量的に優れていることが示された。
論文 参考訳(メタデータ) (2024-08-08T16:13:26Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。