論文の概要: CLASE: A Hybrid Method for Chinese Legalese Stylistic Evaluation
- arxiv url: http://arxiv.org/abs/2602.12639v1
- Date: Fri, 13 Feb 2026 05:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.860408
- Title: CLASE: A Hybrid Method for Chinese Legalese Stylistic Evaluation
- Title(参考訳): CLASE:中国の法定スティリスティック評価のためのハイブリッド手法
- Authors: Yiran Rex Ma, Yuxiao Ye, Huiyuan Xie,
- Abstract要約: CLASE(中国語LegAlese Stylistic Evaluation)は,法文の文体性に着目したハイブリッド評価手法である。
表面レベルの特徴と暗黙的なスタイル規範の両方を透過的で参照不要な方法でキャプチャする。
- 参考スコア(独自算出の注目度): 1.3461854602033616
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Legal text generated by large language models (LLMs) can usually achieve reasonable factual accuracy, but it frequently fails to adhere to the specialised stylistic norms and linguistic conventions of legal writing. In order to improve stylistic quality, a crucial first step is to establish a reliable evaluation method. However, having legal experts manually develop such a metric is impractical, as the implicit stylistic requirements in legal writing practice are difficult to formalise into explicit rubrics. Meanwhile, existing automatic evaluation methods also fall short: reference-based metrics conflate semantic accuracy with stylistic fidelity, and LLM-as-a-judge evaluations suffer from opacity and inconsistency. To address these challenges, we introduce CLASE (Chinese LegAlese Stylistic Evaluation), a hybrid evaluation method that focuses on the stylistic performance of legal text. The method incorporates a hybrid scoring mechanism that combines 1) linguistic feature-based scores and 2) experience-guided LLM-as-a-judge scores. Both the feature coefficients and the LLM scoring experiences are learned from contrastive pairs of authentic legal documents and their LLM-restored counterparts. This hybrid design captures both surface-level features and implicit stylistic norms in a transparent, reference-free manner. Experiments on 200 Chinese legal documents show that CLASE achieves substantially higher alignment with human judgments than traditional metrics and pure LLM-as-a-judge methods. Beyond improved alignment, CLASE provides interpretable score breakdowns and suggestions for improvements, offering a scalable and practical solution for professional stylistic evaluation in legal text generation (Code and data for CLASE is available at: https://github.com/rexera/CLASE).
- Abstract(参考訳): 大規模言語モデル(LLM)によって生成される法的テキストは通常、合理的な事実的正確性を達成することができるが、専門化された形式的規範や法的文書の言語規則に従わないことがしばしばある。
文体品質を向上するためには,信頼性の高い評価方法を確立することが重要な第一歩である。
しかし、法的な専門家が手動でこのような指標を開発することは非現実的であり、法的書記の実践における暗黙の様式的な要求は明示的なルーリックにフォーマル化することは困難である。
一方、既存の自動評価手法も不足している。参照ベースのメトリクスは、スタイリスティックな忠実さとセマンティックな精度を表わし、LCM-as-a-judge評価は不透明感と不整合に悩まされる。
これらの課題に対処するために,法文のスタイリスティックなパフォーマンスに着目したハイブリッド評価手法であるCLASE(中国語LegAlese Stylistic Evaluation)を導入する。
この手法は、組み合わせるハイブリッドスコアリング機構を組み込む。
1)言語的特徴に基づくスコア
2) LLM-as-a-judge scores。
特徴係数とLLMスコアリング経験は、対照的に、真正の法的文書とLLMを復元した文書から学習される。
このハイブリッドデザインは、表面レベルの特徴と暗黙的なスタイル規範の両方を透過的で参照のない方法でキャプチャする。
200の中国の法律文書での実験では、CLASEは従来の指標や純粋なLCM-as-a-judge法よりも、人間の判断との整合性が著しく高いことが示されている。
改善されたアライメントに加えて、CLASEは解釈可能なスコアのブレークダウンと改善の提案を提供し、法的テキスト生成におけるプロフェッショナルなスタイリスティックな評価のためのスケーラブルで実用的なソリューションを提供する(CLASEのコードとデータは、https://github.com/rexera/CLASEで利用可能)。
関連論文リスト
- PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。
PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。
人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文 参考訳(メタデータ) (2026-01-23T11:36:10Z) - LLM-as-a-Judge is Bad, Based on AI Attempting the Exam Qualifying for the Member of the Polish National Board of Appeal [34.008574054602356]
本報告では,公益調達法に関する知識試験と判決書を含む試験の構造について述べる。
いくつかのLCMはクローズドブックと様々なRetrieval-Augmented Generation設定でテストされた。
その結果,本モデルは知識テストで満足度を達成できたが,実用書面の通過しきい値には達しなかった。
論文 参考訳(メタデータ) (2025-11-06T09:11:20Z) - Human-Aligned Code Readability Assessment with Large Language Models [15.17270025276759]
本稿では,大規模言語モデル(LLM)に基づくコード可読性評価のための,最初の大規模ベンチマークであるCoReEvalを紹介する。
LLMはスケーラブルな代替手段を提供するが、可読性評価器としてのそれらの振る舞いは未検討のままである。
以上の結果から,人間定義の可読性次元に基礎を置く開発者誘導型プロンプトは,構造化コンテキストにおけるアライメントを改善することが示唆された。
論文 参考訳(メタデータ) (2025-10-18T17:00:52Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Persona-Augmented Benchmarking: Evaluating LLMs Across Diverse Writing Styles [27.216039759668675]
さまざまなモデルやタスクにまたがって、低いか高いパフォーマンスを連続的に引き起こす異なる書き込みスタイルを特定します。
我々の研究は、既存のベンチマークを拡大するためのスケーラブルなアプローチを提供し、LLM性能の測定に提供される評価の外部的妥当性を改善します。
論文 参考訳(メタデータ) (2025-07-29T18:59:09Z) - Improving the Accuracy and Efficiency of Legal Document Tagging with Large Language Models and Instruction Prompts [0.6554326244334866]
Legal-LLMはLarge Language Models (LLM) の命令追従機能を利用する新しいアプローチである。
提案手法は,マイクロF1とマクロF1スコアを用いて,POSTURE50KとEURLEX57Kの2つのベンチマークデータセット上で評価する。
論文 参考訳(メタデータ) (2025-04-12T18:57:04Z) - Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。
単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。
本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-04-01T09:36:56Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving [43.148203559785095]
印象的な多言語機能を持つ大規模言語モデル(LLM)は、この極端な翻訳要求を達成するための希望の光となるかもしれない。
本稿ではまず,各漢詩にエレガントな翻訳が認められた適切なベンチマーク(PoetMT)を紹介する。
本稿では,GPT-4に基づく新しい測定基準を提案し,現在のLCMがこれらの要求を満たす範囲を評価する。
論文 参考訳(メタデータ) (2024-08-19T12:34:31Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。