論文の概要: VLQA: The First Comprehensive, Large, and High-Quality Vietnamese Dataset for Legal Question Answering
- arxiv url: http://arxiv.org/abs/2507.19995v1
- Date: Sat, 26 Jul 2025 16:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.664365
- Title: VLQA: The First Comprehensive, Large, and High-Quality Vietnamese Dataset for Legal Question Answering
- Title(参考訳): VLQA:最初の包括的で大規模で高品質なベトナムのデータセット
- Authors: Tan-Minh Nguyen, Hoang-Trung Nguyen, Trong-Khoi Dao, Xuan-Hieu Phan, Ha-Thanh Nguyen, Thi-Hai-Yen Vuong,
- Abstract要約: ベトナムの法律ドメインに適した包括的で高品質なリソースであるVLQAデータセットを紹介した。
また、データセットの包括的統計分析を行い、その有効性を評価する。
- 参考スコア(独自算出の注目度): 4.546567493379192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The advent of large language models (LLMs) has led to significant achievements in various domains, including legal text processing. Leveraging LLMs for legal tasks is a natural evolution and an increasingly compelling choice. However, their capabilities are often portrayed as greater than they truly are. Despite the progress, we are still far from the ultimate goal of fully automating legal tasks using artificial intelligence (AI) and natural language processing (NLP). Moreover, legal systems are deeply domain-specific and exhibit substantial variation across different countries and languages. The need for building legal text processing applications for different natural languages is, therefore, large and urgent. However, there is a big challenge for legal NLP in low-resource languages such as Vietnamese due to the scarcity of resources and annotated data. The need for labeled legal corpora for supervised training, validation, and supervised fine-tuning is critical. In this paper, we introduce the VLQA dataset, a comprehensive and high-quality resource tailored for the Vietnamese legal domain. We also conduct a comprehensive statistical analysis of the dataset and evaluate its effectiveness through experiments with state-of-the-art models on legal information retrieval and question-answering tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、法的なテキスト処理を含む様々な領域において大きな成果をもたらした。
LLMを法的タスクに活用することは、自然な進化であり、ますます魅力的な選択である。
しかし、その能力は真に大きいものと見なされることが多い。
進歩にもかかわらず、我々は人工知能(AI)と自然言語処理(NLP)を使って法的タスクを完全に自動化するという究極の目標には程遠い。
さらに、法体系は深くドメイン固有であり、異なる国や言語でかなりの変化が見られる。
異なる自然言語に対する法的テキスト処理アプリケーションを構築する必要性は大きいが緊急である。
しかしながら、ベトナムなどの低リソース言語では、リソースや注釈付きデータが不足しているため、法的NLPには大きな課題がある。
教師付きトレーニング、検証、教師付き微調整のためのラベル付き法定コーパスの必要性が重要である。
本稿では,ベトナムの法域に適した包括的かつ高品質な資源であるVLQAデータセットを紹介する。
また,本データセットの包括的統計分析を行い,法的な情報検索と質問応答タスクに関する最先端モデルを用いた実験を通じて,その有効性を評価する。
関連論文リスト
- Large Language Models in Legislative Content Analysis: A Dataset from the Polish Parliament [0.0]
この研究は、法律分野、特にポーランド語におけるNLPの発展に寄与している。
一般的にアクセス可能なデータでさえ、立法内容分析に活用できることが実証されている。
論文 参考訳(メタデータ) (2025-03-15T12:10:20Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges [4.548047308860141]
本調査は,手動フィルタリング後の133項目を最終選択した154の研究をレビューし,システムレビューおよびメタ分析フレームワークの優先報告項目に従う。
法律分野におけるNLPに関する基礎概念を探求し、法律文書の処理の独特な側面と課題を詳述する。
本稿では,法的文書要約,法的名称付きエンティティ認識,法的質問回答,法的条項マイニング,法的テキスト分類,法的判断予測など,法的テキストに特有のNLPタスクの概要について述べる。
論文 参考訳(メタデータ) (2024-10-25T01:17:02Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Exploring the Nexus of Large Language Models and Legal Systems: A Short Survey [1.0770079992809338]
LLM(Large Language Models)の能力は、法律分野におけるユニークな役割をますます示している。
この調査は、法的テキスト理解、事例検索、分析などのタスクにおけるLLMと法体系の相乗効果について考察する。
この調査では、さまざまな法律システム用に調整された微調整された法的なLLMの最新の進歩と、さまざまな言語で微調整されたLLMのための法的なデータセットが紹介されている。
論文 参考訳(メタデータ) (2024-04-01T08:35:56Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - NeCo@ALQAC 2023: Legal Domain Knowledge Acquisition for Low-Resource
Languages through Data Enrichment [2.441072488254427]
本稿では,ベトナムのテキスト処理タスクに対するNeCo Teamのソリューションを,ALQAC 2023(Automated Legal Question Answering Competition 2023)で紹介する。
法的な文書検索タスクでは,類似度ランキングと深層学習モデルを組み合わせた手法が採用されているが,第2の課題では,異なる質問タイプを扱うための適応的手法が提案されている。
提案手法は, 競争の両課題において, 法的分野における質問応答システムの潜在的メリットと有効性を示す, 卓越した結果を達成している。
論文 参考訳(メタデータ) (2023-09-11T14:43:45Z) - Improving Vietnamese Legal Question--Answering System based on Automatic
Data Enrichment [2.56085064991751]
本稿では,ベトナム語記事レベルの検索に基づく法的QAシステムを実装することで,これらの制限を克服しようとしている。
我々の仮説は、ラベル付きデータが制限された状況では、効率的なデータ豊かさが全体的なパフォーマンス向上に役立つというものである。
論文 参考訳(メタデータ) (2023-06-08T00:24:29Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。