論文の概要: VLegal-Bench: Cognitively Grounded Benchmark for Vietnamese Legal Reasoning of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.14554v1
- Date: Tue, 16 Dec 2025 16:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.787045
- Title: VLegal-Bench: Cognitively Grounded Benchmark for Vietnamese Legal Reasoning of Large Language Models
- Title(参考訳): VLegal-Bench: ベトナムの大規模言語モデルの法的推論のための認知的基盤ベンチマーク
- Authors: Nguyen Tien Dong, Minh-Anh Nguyen, Thanh Dat Hoang, Nguyen Tuan Ngoc, Dao Xuan Quang Minh, Phan Phi Hai, Nguyen Thi Ngoc Anh, Dang Van Tu, Binh Vu,
- Abstract要約: VLegal-Benchはベトナムの法務上の大きな言語モデル(LLM)を評価するために設計された最初の包括的なベンチマークである。
ベンチマークは厳密なアノテーションパイプラインを通じて生成された10,450のサンプルで構成されている。
- 参考スコア(独自算出の注目度): 0.4310799044841232
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has enabled new possibilities for applying artificial intelligence within the legal domain. Nonetheless, the complexity, hierarchical organization, and frequent revisions of Vietnamese legislation pose considerable challenges for evaluating how well these models interpret and utilize legal knowledge. To address this gap, Vietnamese Legal Benchmark (VLegal-Bench) is introduced, the first comprehensive benchmark designed to systematically assess LLMs on Vietnamese legal tasks. Informed by Bloom's cognitive taxonomy, VLegal-Bench encompasses multiple levels of legal understanding through tasks designed to reflect practical usage scenarios. The benchmark comprises 10,450 samples generated through a rigorous annotation pipeline, where legal experts label and cross-validate each instance using our annotation system to ensure every sample is grounded in authoritative legal documents and mirrors real-world legal assistant workflows, including general legal questions and answers, retrieval-augmented generation, multi-step reasoning, and scenario-based problem solving tailored to Vietnamese law. By providing a standardized, transparent, and cognitively informed evaluation framework, VLegal-Bench establishes a solid foundation for assessing LLM performance in Vietnamese legal contexts and supports the development of more reliable, interpretable, and ethically aligned AI-assisted legal systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、法域内で人工知能を適用する新たな可能性を可能にした。
それでも、複雑化、階層的な組織化、ベトナムの法律の頻繁な改訂は、これらのモデルが法的知識をいかにうまく解釈し活用するかを評価する上で大きな課題となる。
このギャップに対処するためにベトナム法ベンチマーク (VLegal-Bench) が導入された。
ブルームの認知分類学にヒントを得たVLegal-Benchは、実践的な利用シナリオを反映したタスクを通じて、複数のレベルの法的理解を含んでいる。
このベンチマークは、厳格なアノテーションパイプラインを通じて生成された10,450のサンプルで構成されており、そこでは、法律専門家がアノテーションシステムを使用して各インスタンスをラベル付けし、クロスバリデーションし、すべてのサンプルが権威ある法的文書に根拠付けられ、一般的な法的質問と回答、検索強化世代、多段階推論、シナリオベースの問題解決を含む現実世界の法的アシスタントワークフローをミラーする。
VLegal-Benchは、標準化され透明で認知的な評価フレームワークを提供することにより、ベトナムの法的文脈におけるLLMのパフォーマンスを評価するための確かな基盤を確立し、より信頼性が高く、解釈可能で、倫理的に整合したAI支援法体系の開発を支援する。
関連論文リスト
- LexGenius: An Expert-Level Benchmark for Large Language Models in Legal General Intelligence [74.05988707492058]
法務総合知能(ぎょうげんがく、英語: Legal General Intelligence, GI)とは、法的な理解、推論、意思決定を含む人工知能(AI)のこと。
既存のベンチマークは結果指向であり、大規模言語モデル(LLM)の法的なインテリジェンスを体系的に評価することができない。
我々は、LLMにおける法GIを評価するための専門家レベルの中国の法定ベンチマークであるLexGeniusを提案する。
論文 参考訳(メタデータ) (2025-12-04T08:48:02Z) - Large Language Models' Complicit Responses to Illicit Instructions across Socio-Legal Contexts [54.15982476754607]
大規模言語モデル(LLM)が前例のない規模に展開され、毎日のタスクで数百万のユーザを支援している。
本研究は、複雑なファシリテーションを、不正なユーザ指示を可能にするガイダンスやサポートの提供として定義する。
実世界の訴訟と確立された法的枠組みを用いて、269件の違法なシナリオと50件の違法な意図にまたがる評価ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-25T16:01:31Z) - GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。
既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。
GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文 参考訳(メタデータ) (2025-08-22T13:38:12Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Legal Evalutions and Challenges of Large Language Models [42.51294752406578]
我々は,OPENAI o1モデルを事例研究として,法律規定の適用における大規模モデルの性能評価に利用した。
我々は、オープンソース、クローズドソース、および法律ドメインのために特別に訓練された法律固有のモデルを含む、最先端のLLMを比較します。
論文 参考訳(メタデータ) (2024-11-15T12:23:12Z) - Developing a Pragmatic Benchmark for Assessing Korean Legal Language Understanding in Large Language Models [7.797885529152412]
大規模言語モデル (LLM) は法域において顕著な性能を示した。
しかし、その効力は英語以外の言語における非標準化されたタスクやタスクに限られている。
このことは、適用前に各法体系内でのLCMの慎重な評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-11T11:41:02Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Automating IRAC Analysis in Malaysian Contract Law using a Semi-Structured Knowledge Base [22.740895683854568]
本稿では,法シナリオ分析のためのベンチマークであるLegalSemiを紹介する。
法律は、マレーシアの契約法(英語版)の包括的なIRAC(Issue, Rule, Application, Conclusion)フレームワークに基づいて、法律専門家によって厳格に注釈付けされた54の法的シナリオで構成されている。
IRAC 解析における LegalSemi の有用性を評価するために, 一連の実験を行った。
論文 参考訳(メタデータ) (2024-06-19T04:59:09Z) - LAiW: A Chinese Legal Large Language Models Benchmark [17.66376880475554]
一般および法的ドメイン LLM は LegalAI の様々なタスクにおいて高いパフォーマンスを示している。
われわれは、法的な実践の論理に基づいて、中国の法的LLMベンチマークLAiWを最初に構築しました。
論文 参考訳(メタデータ) (2023-10-09T11:19:55Z) - LexGLUE: A Benchmark Dataset for Legal Language Understanding in English [15.026117429782996]
我々は,多種多様なNLUタスクのモデル性能を評価するためのデータセットの集合であるLexGLUEベンチマークを紹介する。
また、複数の汎用的および法的指向モデルの評価と分析を行い、後者が複数のタスクにまたがるパフォーマンス改善を一貫して提供することを示した。
論文 参考訳(メタデータ) (2021-10-03T10:50:51Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。