論文の概要: From Benchmarking to Reasoning: A Dual-Aspect, Large-Scale Evaluation of LLMs on Vietnamese Legal Text
- arxiv url: http://arxiv.org/abs/2604.16270v1
- Date: Fri, 17 Apr 2026 17:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.028855
- Title: From Benchmarking to Reasoning: A Dual-Aspect, Large-Scale Evaluation of LLMs on Vietnamese Legal Text
- Title(参考訳): ベンチマークから推論へ:ベトナム法典におけるLLMの大規模評価
- Authors: Van-Truong Le,
- Abstract要約: 本稿では、このニーズに対処するための総合的な二重アスペクト評価フレームワークを提案する。
正確性、可読性、一貫性の3つの重要な側面にわたる、最先端の4つの大規模言語モデルのパフォーマンスベンチマークを構築します。
Grok-1のようなモデルは可読性と一貫性に優れているが、きめ細かい法的な正確性に妥協する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The complexity of Vietnam's legal texts presents a significant barrier to public access to justice. While Large Language Models offer a promising solution for legal text simplification, evaluating their true capabilities requires a multifaceted approach that goes beyond surface-level metrics. This paper introduces a comprehensive dual-aspect evaluation framework to address this need. First, we establish a performance benchmark for four state-of-the-art large language models (GPT-4o, Claude 3 Opus, Gemini 1.5 Pro, and Grok-1) across three key dimensions: Accuracy, Readability, and Consistency. Second, to understand the "why" behind these performance scores, we conduct a large-scale error analysis on a curated dataset of 60 complex Vietnamese legal articles, using a novel, expert-validated error typology. Our results reveal a crucial trade-off: models like Grok-1 excel in Readability and Consistency but compromise on fine-grained legal Accuracy, while models like Claude 3 Opus achieve high Accuracy scores that mask a significant number of subtle but critical reasoning errors. The error analysis pinpoints \textit{Incorrect Example} and \textit{Misinterpretation} as the most prevalent failures, confirming that the primary challenge for current LLMs is not summarization but controlled, accurate legal reasoning. By integrating a quantitative benchmark with a qualitative deep dive, our work provides a holistic and actionable assessment of LLMs for legal applications.
- Abstract(参考訳): ベトナムの法的文書の複雑さは、正義への公的なアクセスに重大な障壁をもたらす。
大きな言語モデルは、法的テキストの単純化に有望なソリューションを提供するが、それらの真の能力を評価するには、表面レベルのメトリクスを超える多面的アプローチが必要である。
本稿では、このニーズに対処するための総合的な二重アスペクト評価フレームワークを提案する。
まず,4つの最先端の大規模言語モデル(GPT-4o,Claude 3 Opus,Gemini 1.5 Pro,Grok-1)のパフォーマンスベンチマークを,精度,可読性,一貫性の3つの重要な側面にわたって確立する。
第二に、これらのパフォーマンススコアの背景にある「なぜ」を理解するために、我々は、専門家が検証した新しいエラータイプロジーを用いて、ベトナムの60の複雑な法的項目のキュレートされたデータセットに対して大規模なエラー分析を行う。
Grok-1のようなモデルは可読性と一貫性に優れるが、きめ細かい法的な正確性に妥協する一方、Claude 3 Opusのようなモデルは、微妙だが重要な推論エラーを隠蔽する高い精度のスコアを得る。
エラー解析のピンポイントは、最も一般的な障害として \textit{Incorrect Example} と \textit{Misinterpretation} であり、現在のLLMの最大の課題は、要約ではなく、制御された、正確な法的推論であることを確認した。
定量的なベンチマークと定性的なディープダイブを組み合わせることで、我々の研究は法的応用のためのLLMの総合的かつ実用的な評価を提供する。
関連論文リスト
- SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - LegalEval-Q: A New Benchmark for The Quality Evaluation of LLM-Generated Legal Text [0.0]
我々は,明快さ,コヒーレンス,用語に基づく法文の質を評価する回帰モデルを構築した。
まず、モデルの品質レベルが14億のパラメータから外れ、限界的な改善は72億のパラメータで2.7%だけである。
論文 参考訳(メタデータ) (2025-05-30T17:30:18Z) - Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.379764847748378]
大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。
このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。
我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:49:44Z) - Refining Financial Consumer Complaints through Multi-Scale Model Interaction [8.504311452987036]
本稿では,非公式な会話文入力を説得力のある法的議論に変換する法文改良の課題について考察する。
我々は、請求合理性に関する公式判断を付した中国の金融紛争記録のデータセットであるFinDRを紹介した。
実験の結果,MSMI(Multi-Scale Model Interaction)はシングルパスプロンプト戦略を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-04-14T05:51:31Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Towards Improving Faithfulness in Abstractive Summarization [37.19777407790153]
本稿では,抽象的な要約における忠実度を改善するために,FES(Fithfulness Enhanced Summarization Model)を提案する。
我々のモデルはCNN/DMとXSumの実験において強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-10-04T19:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。