論文の概要: Assessing the Reliability of Large Language Models in the Bengali Legal Context: A Comparative Evaluation Using LLM-as-Judge and Legal Experts
- arxiv url: http://arxiv.org/abs/2511.05627v1
- Date: Fri, 07 Nov 2025 02:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.510092
- Title: Assessing the Reliability of Large Language Models in the Bengali Legal Context: A Comparative Evaluation Using LLM-as-Judge and Legal Experts
- Title(参考訳): ベンガル法における大規模言語モデルの信頼性の評価:LLM-as-Judgeと法専門家による比較評価
- Authors: Sabik Aftahee, A. F. M. Farhad, Arpita Mallik, Ratnajit Dhar, Jawadul Karim, Nahiyan Bin Noor, Ishmam Ahmed Solaiman,
- Abstract要約: OpenAI GPT-4.1 Mini、Gemini 2.0 Flash、Meta Llama 370B、DeepSeek R1などの生成AIモデルは、法的援助を民主化する可能性がある。
本研究では,Facebookグループ「Know Your Rights」から250の真正な法的質問を収集した。
我々は,AIが生成する各応答を,事実的正確性,法的適切性,完全性,明確性という4つの重要な側面で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accessing legal help in Bangladesh is hard. People face high fees, complex legal language, a shortage of lawyers, and millions of unresolved court cases. Generative AI models like OpenAI GPT-4.1 Mini, Gemini 2.0 Flash, Meta Llama 3 70B, and DeepSeek R1 could potentially democratize legal assistance by providing quick and affordable legal advice. In this study, we collected 250 authentic legal questions from the Facebook group "Know Your Rights," where verified legal experts regularly provide authoritative answers. These questions were subsequently submitted to four four advanced AI models and responses were generated using a consistent, standardized prompt. A comprehensive dual evaluation framework was employed, in which a state-of-the-art LLM model served as a judge, assessing each AI-generated response across four critical dimensions: factual accuracy, legal appropriateness, completeness, and clarity. Following this, the same set of questions was evaluated by three licensed Bangladeshi legal professionals according to the same criteria. In addition, automated evaluation metrics, including BLEU scores, were applied to assess response similarity. Our findings reveal a complex landscape where AI models frequently generate high-quality, well-structured legal responses but also produce dangerous misinformation, including fabricated case citations, incorrect legal procedures, and potentially harmful advice. These results underscore the critical need for rigorous expert validation and comprehensive safeguards before AI systems can be safely deployed for legal consultation in Bangladesh.
- Abstract(参考訳): バングラデシュで法的援助を受けることは難しい。
人々は高い手数料、複雑な法律言語、弁護士の不足、無解決の訴訟に直面する。
OpenAI GPT-4.1 Mini、Gemini 2.0 Flash、Meta Llama 370B、DeepSeek R1などの生成AIモデルは、迅速で安価な法的アドバイスを提供することで、法的援助を民主化する可能性がある。
本研究では,Facebookグループ「Know Your Rights」から250件の真正な法的質問を収集し,検証された法的専門家が定期的に権威的な回答を出している。
これらの質問はその後、4つの高度なAIモデルに送信され、一貫した標準化されたプロンプトを使用して応答が生成される。
総合的な二重評価フレームワークが採用され、最先端のLLMモデルが審査員として機能し、事実の正確性、法的適切性、完全性、明確さの4つの重要な側面で、AI生成された各応答を評価する。
その後、同じ基準に従って3人のバングラデシュの法律専門家によって同じ質問が評価された。
さらに、BLEUスコアを含む自動評価指標を適用し、応答類似性を評価した。
我々の発見は、AIモデルが高品質でよく構造化された法的対応を頻繁に生み出す複雑な状況を明らかにし、また、偽の事例引用、不正な法的手続き、潜在的に有害なアドバイスを含む危険な誤情報も生み出す。
これらの結果は、バングラデシュで法的協議のためにAIシステムが安全に配備される前に、厳格な専門家の検証と包括的安全に関する重要な必要性を浮き彫りにしている。
関連論文リスト
- ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - Legal Assist AI: Leveraging Transformer-Based Model for Effective Legal Assistance [0.18749305679160366]
インドの多くの市民は、限定的な認識と関連する法的情報へのアクセスのため、法的権利の活用に苦慮している。
本稿では,大規模言語モデル(LLM)による効果的な法的支援を提供することにより,このギャップを埋めるトランスフォーマーベースモデルであるLegal Assist AIを紹介する。
このモデルは、GPT-3.5 TurboやMistral 7Bといった最先端モデルに対して評価され、AIBEで60.08%のスコアを得た。
論文 参考訳(メタデータ) (2025-05-28T06:06:53Z) - LeCoDe: A Benchmark Dataset for Interactive Legal Consultation Dialogue Evaluation [68.26911563519162]
法的協議は、個人の権利を保護し、司法へのアクセスを確保するために不可欠である。
現在のシステムは、現実世界のコンサルティングの対話的かつ知識集約的な性質を扱うのに不足している。
LeCoDeは3,696件の法的相談対話と110,008件の対話を含む実世界のマルチターンベンチマークデータセットである。
論文 参考訳(メタデータ) (2025-05-26T08:24:32Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Exploring Possibilities of AI-Powered Legal Assistance in Bangladesh through Large Language Modeling [0.0]
本研究はバングラデシュの法体系を支援するための特別大規模言語モデル(LLM)の開発を目的とする。
我々は、バングラデシュの法律文書の英文コーパスであるUKIL-DB-ENを作成し、様々な法的行為に関するデータを収集し、取り除いた。
我々はこのデータセット上でGPT-2モデルを微調整し、英語の法的支援を目的としたLPMであるGPT2-UKIL-ENを開発した。
論文 参考訳(メタデータ) (2024-10-22T17:34:59Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Interpretable Long-Form Legal Question Answering with
Retrieval-Augmented Large Language Models [10.834755282333589]
長文の法的問合せデータセットは、専門家によるフランス語の法的質問1,868件からなる。
実験結果から,自動評価指標について有望な性能を示した。
LLeQAは、専門家によって注釈付けされた唯一の包括的なロングフォームLQAデータセットの1つであり、重要な現実世界の問題を解決するために研究を加速するだけでなく、特殊な領域におけるNLPモデルを評価するための厳密なベンチマークとしても機能する可能性がある。
論文 参考訳(メタデータ) (2023-09-29T08:23:19Z) - Legal Question-Answering in the Indian Context: Efficacy, Challenges,
and Potential of Modern AI Models [3.552993426200889]
法的なQAプラットフォームは、法の専門家が法学的な文書を扱う方法を変えることを約束する。
本論文では,OpenAI GPTモデルを基準点として,検索とQA機構の配列をゼロとする。
本研究の根拠は、その複雑な性質と関連する論理的制約によって区別される、インドの刑事法的な景観と結びついている。
論文 参考訳(メタデータ) (2023-09-26T07:56:55Z) - Chatlaw: A Multi-Agent Collaborative Legal Assistant with Knowledge Graph Enhanced Mixture-of-Experts Large Language Model [30.30848216845138]
ChatlawはMixture-of-Experts(MoE)モデルとマルチエージェントシステムを利用した革新的な法的アシスタントである。
知識グラフと人工スクリーニングを組み合わせることで,MoEモデルをトレーニングするための高品質な法的データセットを構築する。
弊社のMoEモデルは,法律専門家のGPT-4とUnified Exam Qualificationをそれぞれ7.73%,11ポイントで上回っている。
論文 参考訳(メタデータ) (2023-06-28T10:48:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。