論文の概要: NitiBench: A Comprehensive Study of LLM Framework Capabilities for Thai Legal Question Answering
- arxiv url: http://arxiv.org/abs/2502.10868v3
- Date: Sat, 08 Mar 2025 05:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:42:19.267709
- Title: NitiBench: A Comprehensive Study of LLM Framework Capabilities for Thai Legal Question Answering
- Title(参考訳): NitiBench: タイの法的質問に対するLLMフレームワークの機能に関する総合的研究
- Authors: Pawitsapak Akarajaradwong, Pirat Pothavorn, Chompakorn Chaksangchaichot, Panuthep Tasawong, Thitiwat Nopparatbundit, Sarana Nutanong,
- Abstract要約: 本稿では、タイの一般的な金融法を網羅するニチベンチ-CCLと、現実の税法ケースを含むニチベンチ-タックスの2つのデータセットからなるベンチマークであるニチベンチを紹介する。
検索強化世代(RAG)と長文LLMに基づく3つの重要な研究課題に対処するためのアプローチを評価する。
- 参考スコア(独自算出の注目度): 4.61348190872483
- License:
- Abstract: The application of large language models (LLMs) in the legal domain holds significant potential for information retrieval and question answering, yet Thai legal QA systems face challenges due to a lack of standardized evaluation benchmarks and the complexity of Thai legal structures. This paper introduces NitiBench, a benchmark comprising two datasets: the NitiBench-CCL, covering general Thai financial law, and the NitiBench-Tax, which includes real-world tax law cases requiring advanced legal reasoning. We evaluate retrieval-augmented generation (RAG) and long-context LLM-based approaches to address three key research questions: the impact of domain-specific components like section-based chunking and cross-referencing, the comparative performance of different retrievers and LLMs, and the viability of long-context LLMs as an alternative to RAG. Our results show that section-based chunking significantly improves retrieval and end-to-end performance, current retrievers struggle with complex queries, and long-context LLMs still underperform RAG-based systems in Thai legal QA. To support fair evaluation, we propose tailored multi-label retrieval metrics and the use of an LLM-as-judge for coverage and contradiction detection method. These findings highlight the limitations of current Thai legal NLP solutions and provide a foundation for future research in the field. We also open-sourced our codes and dataset to available publicly.
- Abstract(参考訳): 法律分野における大規模言語モデル(LLM)の適用は、情報検索や質問応答において大きな可能性を秘めているが、タイの法定QAシステムは、標準化された評価ベンチマークの欠如とタイの法構造が複雑であるため、課題に直面している。
本稿では,タイの一般的な金融法を網羅するニチベンチ・CCLと,先進的な法的推論を必要とする現実の税法ケースを含むニチベンチ・タックスの2つのデータセットからなるベンチマークであるニチベンチを紹介する。
我々は、検索強化世代(RAG)と長文LLMに基づくアプローチを評価し、3つの重要な研究課題に対処する: セクションベースチャンキングやクロス参照のようなドメイン固有のコンポーネントの影響、異なるレトリバーとLLMの比較性能、RAGに代わる長文LLMの生存可能性。
以上の結果から,分割型チャンキングは検索とエンドツーエンドのパフォーマンスを著しく向上させ,現在の検索者は複雑なクエリに苦慮し,長文LLMはタイの法定QAにおいてRAGベースのシステムより劣っていることが明らかとなった。
公平な評価を支援するため,我々はLLM-as-judgeを用いた多ラベル検索手法を提案する。
これらの知見は、現在のタイの法的NLPソリューションの限界を強調し、この分野における将来の研究の基盤を提供する。
また、コードとデータセットをオープンソースとして公開しています。
関連論文リスト
- LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Methods for Legal Citation Prediction in the Age of LLMs: An Australian Law Case Study [9.30538764385435]
我々は、関連する法律や前例を正しく特定し、引用することが重要であるオーストラリアの法律文脈における法的引用予測の問題に焦点を当てる。
本研究は, ドメイン固有の事前訓練だけでは, 法定事前訓練後であっても, 良好な励磁精度が得られていないことを示唆する。
対照的に、タスク固有のデータセットのインストラクションチューニングは、すべての設定で最高の結果に達するパフォーマンスを劇的に向上させます。
論文 参考訳(メタデータ) (2024-12-09T07:46:14Z) - Legal Evalutions and Challenges of Large Language Models [42.51294752406578]
我々は,OPENAI o1モデルを事例研究として,法律規定の適用における大規模モデルの性能評価に利用した。
我々は、オープンソース、クローズドソース、および法律ドメインのために特別に訓練された法律固有のモデルを含む、最先端のLLMを比較します。
論文 参考訳(メタデータ) (2024-11-15T12:23:12Z) - LexEval: A Comprehensive Chinese Legal Benchmark for Evaluating Large Language Models [17.90483181611453]
大規模言語モデル (LLM) は自然言語処理タスクにおいて大きな進歩を遂げており、法的領域においてかなりの可能性を示している。
既存のLLMを法制度に適用し、その可能性や限界を慎重に評価することなく適用することは、法律実務において重大なリスクをもたらす可能性がある。
我々は、標準化された総合的な中国の法律ベンチマークLexEvalを紹介する。
論文 参考訳(メタデータ) (2024-09-30T13:44:00Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Bridging Law and Data: Augmenting Reasoning via a Semi-Structured Dataset with IRAC methodology [22.740895683854568]
本稿では,法シナリオ分析のためのベンチマークであるLEGALSEMIを紹介する。
LEGALSEMIは54の法的シナリオで構成されており、それぞれが包括的なIRAC(Issue, Rule, Application, Conclusion)フレームワークに基づいて、法の専門家によって厳格に注釈付けされている。
IRAC分析におけるLEGALSEMIの有用性を評価するための一連の実験を行った。
論文 参考訳(メタデータ) (2024-06-19T04:59:09Z) - A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。
我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。
これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文 参考訳(メタデータ) (2024-05-02T22:43:02Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - Interpretable Long-Form Legal Question Answering with
Retrieval-Augmented Large Language Models [10.834755282333589]
長文の法的問合せデータセットは、専門家によるフランス語の法的質問1,868件からなる。
実験結果から,自動評価指標について有望な性能を示した。
LLeQAは、専門家によって注釈付けされた唯一の包括的なロングフォームLQAデータセットの1つであり、重要な現実世界の問題を解決するために研究を加速するだけでなく、特殊な領域におけるNLPモデルを評価するための厳密なベンチマークとしても機能する可能性がある。
論文 参考訳(メタデータ) (2023-09-29T08:23:19Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。