論文の概要: CLASE: A Hybrid Method for Chinese Legalese Stylistic Evaluation
- arxiv url: http://arxiv.org/abs/2602.12639v1
- Date: Fri, 13 Feb 2026 05:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.860408
- Title: CLASE: A Hybrid Method for Chinese Legalese Stylistic Evaluation
- Title(参考訳): CLASE:中国の法定スティリスティック評価のためのハイブリッド手法
- Authors: Yiran Rex Ma, Yuxiao Ye, Huiyuan Xie,
- Abstract要約: CLASE(中国語LegAlese Stylistic Evaluation)は,法文の文体性に着目したハイブリッド評価手法である。
表面レベルの特徴と暗黙的なスタイル規範の両方を透過的で参照不要な方法でキャプチャする。
- 参考スコア(独自算出の注目度): 1.3461854602033616
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Legal text generated by large language models (LLMs) can usually achieve reasonable factual accuracy, but it frequently fails to adhere to the specialised stylistic norms and linguistic conventions of legal writing. In order to improve stylistic quality, a crucial first step is to establish a reliable evaluation method. However, having legal experts manually develop such a metric is impractical, as the implicit stylistic requirements in legal writing practice are difficult to formalise into explicit rubrics. Meanwhile, existing automatic evaluation methods also fall short: reference-based metrics conflate semantic accuracy with stylistic fidelity, and LLM-as-a-judge evaluations suffer from opacity and inconsistency. To address these challenges, we introduce CLASE (Chinese LegAlese Stylistic Evaluation), a hybrid evaluation method that focuses on the stylistic performance of legal text. The method incorporates a hybrid scoring mechanism that combines 1) linguistic feature-based scores and 2) experience-guided LLM-as-a-judge scores. Both the feature coefficients and the LLM scoring experiences are learned from contrastive pairs of authentic legal documents and their LLM-restored counterparts. This hybrid design captures both surface-level features and implicit stylistic norms in a transparent, reference-free manner. Experiments on 200 Chinese legal documents show that CLASE achieves substantially higher alignment with human judgments than traditional metrics and pure LLM-as-a-judge methods. Beyond improved alignment, CLASE provides interpretable score breakdowns and suggestions for improvements, offering a scalable and practical solution for professional stylistic evaluation in legal text generation (Code and data for CLASE is available at: https://github.com/rexera/CLASE).
- Abstract(参考訳): 大規模言語モデル(LLM)によって生成される法的テキストは通常、合理的な事実的正確性を達成することができるが、専門化された形式的規範や法的文書の言語規則に従わないことがしばしばある。
文体品質を向上するためには,信頼性の高い評価方法を確立することが重要な第一歩である。
しかし、法的な専門家が手動でこのような指標を開発することは非現実的であり、法的書記の実践における暗黙の様式的な要求は明示的なルーリックにフォーマル化することは困難である。
一方、既存の自動評価手法も不足している。参照ベースのメトリクスは、スタイリスティックな忠実さとセマンティックな精度を表わし、LCM-as-a-judge評価は不透明感と不整合に悩まされる。
これらの課題に対処するために,法文のスタイリスティックなパフォーマンスに着目したハイブリッド評価手法であるCLASE(中国語LegAlese Stylistic Evaluation)を導入する。
この手法は、組み合わせるハイブリッドスコアリング機構を組み込む。
1)言語的特徴に基づくスコア
2) LLM-as-a-judge scores。
特徴係数とLLMスコアリング経験は、対照的に、真正の法的文書とLLMを復元した文書から学習される。
このハイブリッドデザインは、表面レベルの特徴と暗黙的なスタイル規範の両方を透過的で参照のない方法でキャプチャする。
200の中国の法律文書での実験では、CLASEは従来の指標や純粋なLCM-as-a-judge法よりも、人間の判断との整合性が著しく高いことが示されている。
改善されたアライメントに加えて、CLASEは解釈可能なスコアのブレークダウンと改善の提案を提供し、法的テキスト生成におけるプロフェッショナルなスタイリスティックな評価のためのスケーラブルで実用的なソリューションを提供する(CLASEのコードとデータは、https://github.com/rexera/CLASEで利用可能)。
関連論文リスト
- PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文 参考訳(メタデータ) (2026-01-23T11:36:10Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles [27.216039759668675]
さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。
我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
論文 参考訳(メタデータ) (2025-07-29T18:59:09Z) - Improving the Accuracy and Efficiency of Legal Document Tagging with Large Language Models and Instruction Prompts [0.6554326244334866]
Legal-LLMはLarge Language Models (LLM) の命令追従機能を利用する新しいアプローチである。
提案手法は,マイクロF1とマクロF1スコアを用いて,POSTURE50KとEURLEX57Kの2つのベンチマークデータセット上で評価する。
論文 参考訳(メタデータ) (2025-04-12T18:57:04Z) - Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。
単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。
本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-04-01T09:36:56Z) - Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving [43.148203559785095]
印象的な多言語機能を持つ大規模言語モデル(LLM)は、この極端な翻訳要求を達成するための希望の光となるかもしれない。
本稿ではまず,各漢詩にエレガントな翻訳が認められた適切なベンチマーク(PoetMT)を紹介する。
本稿では,GPT-4に基づく新しい測定基準を提案し,現在のLCMがこれらの要求を満たす範囲を評価する。
論文 参考訳(メタデータ) (2024-08-19T12:34:31Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。