論文の概要: HUKUKBERT: Domain-Specific Language Model for Turkish Law
- arxiv url: http://arxiv.org/abs/2604.04790v1
- Date: Mon, 06 Apr 2026 15:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.266345
- Title: HUKUKBERT: Domain-Specific Language Model for Turkish Law
- Title(参考訳): HUKKBERT:トルコ法におけるドメイン特化言語モデル
- Authors: Mehmet Utku Öztürk, Tansu Türkoğlu, Buse Buz-Yalug,
- Abstract要約: トルコ語で最も包括的な法的言語モデルであるHukkBERTを紹介する。
DAPT(Hybrid-Adaptive Pre-Training)手法を用いて、18GBのクリーンな法定コーパスでトレーニングされている。
HukukBERTは最先端のパフォーマンスを84.40%のTop-1精度で達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in natural language processing (NLP) have increasingly enabled LegalTech applications, yet existing studies specific to Turkish law have still been limited due to the scarcity of domain-specific data and models. Although extensive models like LEGAL-BERT have been developed for English legal texts, the Turkish legal domain lacks a domain-specific high-volume counterpart. In this paper, we introduce HukukBERT, the most comprehensive legal language model for Turkish, trained on a 18 GB cleaned legal corpus using a hybrid Domain-Adaptive Pre-Training (DAPT) methodology integrating Whole-Word Masking, Token Span Masking, Word Span Masking, and targeted Keyword Masking. We systematically compared our 48K WordPiece tokenizer and DAPT approach against general-purpose and existing domain-specific Turkish models. Evaluated on a novel Legal Cloze Test benchmark -- a masked legal term prediction task designed for Turkish court decisions -- HukukBERT achieves state-of-the-art performance with 84.40\% Top-1 accuracy, substantially outperforming existing models. Furthermore, we evaluated HukukBERT in the downstream task of structural segmentation of official Turkish court decisions, where it achieves a 92.8\% document pass rate, establishing a new state-of-the-art. We release HukukBERT to support future research in Turkish legal NLP tasks, including recognition of named entities, prediction of judgment, and classification of legal documents.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、LegalTechの応用をますます有効にしてきたが、トルコの法律に特有な研究は、ドメイン固有のデータやモデルが不足しているために、いまだに限られている。
LEGAL-BERTのような広範囲なモデルは、英語の法的なテキスト用に開発されたが、トルコの法域にはドメイン固有の高ボリュームのドメインが欠けている。
本稿では,Whole-Word Masking,Token Span Masking,Word Span Masking,Target Keyword Maskingを統合したハイブリッドなDomain-Adaptive Pre-Training(DAPT)手法を用いて,18GBのクリーンな法定コーパスをトレーニングしたトルコ語における最も包括的な法的言語モデルであるHukukBERTを紹介する。
汎用および既存のドメイン固有トルコ語モデルに対して,48K WordPieceトークンとDAPTアプローチを体系的に比較した。
トルコの裁判所決定のために設計されたマスク付き法的用語予測タスクである、新しい法定クローゼテストベンチマークに基づいて評価されたHukkBERTは、84.40\%のTop-1精度で最先端のパフォーマンスを達成し、既存のモデルを大幅に上回っている。
さらに,HukkBERTをトルコの裁判所決定の構造区分の下流課題として評価し,92.8 %の文書パス率を達成し,新たな最先端技術を確立した。
我々はHukkBERTをリリースし、トルコの法的NLPタスクの今後の研究を支援し、その中には、名前付きエンティティの認識、判断の予測、法的文書の分類が含まれる。
関連論文リスト
- LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。
LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。
LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文 参考訳(メタデータ) (2026-01-31T10:18:32Z) - PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文 参考訳(メタデータ) (2026-01-23T11:36:10Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges [7.767611860493713]
本調査は,手動フィルタリング後の131項目を最終選択した154の研究をレビューし,システムレビューおよびメタ分析フレームワークの優先報告項目に従う。
法律分野におけるNLPに関する基礎概念を探求し、法律文書の処理の独特な側面と課題を詳述する。
本稿では, 文書要約, エンティティ認識, 質問回答, 議論マイニング, テキスト分類, 判断予測など, 法的テキストに特有のNLPタスクの概要について述べる。
論文 参考訳(メタデータ) (2024-10-25T01:17:02Z) - Evaluation Ethics of LLMs in Legal Domain [35.725470391038264]
本稿では,大規模言語モデル (LLM) の基本的言語能力, 専門的法的知識, 法的堅牢性を評価するために, 真正の法的事例を利用する新規性評価手法を提案する。
包括的評価から得られた知見は,法律領域における大規模言語モデルの適合性と性能に関する学術的議論に大きく貢献する。
論文 参考訳(メタデータ) (2024-03-17T09:05:13Z) - Unlocking Practical Applications in Legal Domain: Evaluation of GPT for
Zero-Shot Semantic Annotation of Legal Texts [0.0]
我々は、短いテキストスニペットのセマンティックアノテーションを実行するための、最先端の生成事前学習トランスフォーマ(GPT)モデルの有効性を評価する。
その結果、GPTモデルは様々な種類の文書のゼロショット設定において驚くほどよく機能することがわかった。
論文 参考訳(メタデータ) (2023-05-08T01:55:53Z) - AraLegal-BERT: A pretrained language model for Arabic Legal text [0.399013650624183]
AraLegal-BERTは双方向エンコーダトランスフォーマーベースのモデルで、徹底的にテストされ、慎重に最適化されている。
AraLegal-BERTを微調整し、3つの自然言語理解(NLU)タスクにおいて、アラビア語の3つのBERT変種に対して評価した。
その結果、AraLegal-BERTのベースバージョンは、法典テキストよりも一般的なBERTよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-15T13:08:40Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。