論文の概要: Evaluating the Limits of Large Language Models in Multilingual Legal Reasoning
- arxiv url: http://arxiv.org/abs/2509.22472v1
- Date: Fri, 26 Sep 2025 15:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.542257
- Title: Evaluating the Limits of Large Language Models in Multilingual Legal Reasoning
- Title(参考訳): 多言語法的推論における大規模言語モデルの限界評価
- Authors: Antreas Ioannou, Andreas Shiamishis, Nora Hollenstein, Nezihe Merve Gürel,
- Abstract要約: この研究は、LLaMAとGeminiを多言語法的および非法的ベンチマークで評価する。
マルチリンガル・タスク多様性ベンチマークをサポートするために設計された,オープンソースのモジュール型評価パイプラインを提案する。
- 参考スコア(独自算出の注目度): 5.902003660308139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an era dominated by Large Language Models (LLMs), understanding their capabilities and limitations, especially in high-stakes fields like law, is crucial. While LLMs such as Meta's LLaMA, OpenAI's ChatGPT, Google's Gemini, DeepSeek, and other emerging models are increasingly integrated into legal workflows, their performance in multilingual, jurisdictionally diverse, and adversarial contexts remains insufficiently explored. This work evaluates LLaMA and Gemini on multilingual legal and non-legal benchmarks, and assesses their adversarial robustness in legal tasks through character and word-level perturbations. We use an LLM-as-a-Judge approach for human-aligned evaluation. We moreover present an open-source, modular evaluation pipeline designed to support multilingual, task-diverse benchmarking of any combination of LLMs and datasets, with a particular focus on legal tasks, including classification, summarization, open questions, and general reasoning. Our findings confirm that legal tasks pose significant challenges for LLMs with accuracies often below 50% on legal reasoning benchmarks such as LEXam, compared to over 70% on general-purpose tasks like XNLI. In addition, while English generally yields more stable results, it does not always lead to higher accuracy. Prompt sensitivity and adversarial vulnerability is also shown to persist across languages. Finally, a correlation is found between the performance of a language and its syntactic similarity to English. We also observe that LLaMA is weaker than Gemini, with the latter showing an average advantage of about 24 percentage points across the same task. Despite improvements in newer LLMs, challenges remain in deploying them reliably for critical, multilingual legal applications.
- Abstract(参考訳): LLM(Large Language Models)が支配する時代において、特に法律のような高い分野において、その能力と限界を理解することが不可欠である。
MetaのLLaMA、OpenAIのChatGPT、GoogleのGemini、DeepSeek、その他の新興モデルは、法的ワークフローに統合されつつあるが、多言語、管轄的な多様性、敵のコンテキストにおけるパフォーマンスは、いまだ十分に調査されていない。
この研究は、LLaMAとGeminiを多言語法的および非法的なベンチマークで評価し、文字と単語レベルの摂動を通して、法的なタスクにおける敵の堅牢性を評価する。
LLM-as-a-Judge の手法を人手によるアライメント評価に用いた。
さらに、分類、要約、オープン質問、一般的な推論を含む法的タスクに特に焦点をあて、LLMとデータセットの組み合わせを多言語でタスク多様性のベンチマークをサポートするために設計されたオープンソースのモジュラー評価パイプラインを提示する。
LEXamなどの法定推論ベンチマークでは,法定タスクが50%以下であるのに対して,XNLIのような汎用タスクでは70%以上であるのに対し,法定タスクは50%以下であることがわかった。
加えて、英語は一般により安定した結果をもたらすが、必ずしも高い精度をもたらすとは限らない。
プロンプト感度と逆境の脆弱性は言語間で持続することが示されている。
最後に、言語のパフォーマンスと、その構文的類似性と英語との相関を見出す。
また、LLaMAはGeminiよりも弱く、後者は同じタスクで平均24ポイントのアドバンテージを示す。
より新しいLSMの改善にもかかわらず、クリティカルで多言語対応の法的なアプリケーションに確実にデプロイする上での課題は残る。
関連論文リスト
- PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Towards Robust Knowledge Representations in Multilingual LLMs for Equivalence and Inheritance based Consistent Reasoning [5.656040546546711]
推論と言語スキルは人間の知性の基盤を形成し、問題解決と意思決定を促進する。
大規模言語モデル(LLM)の最近の進歩は、印象的な言語機能と突発的な推論行動をもたらし、アプリケーションドメインで広く採用されている。
我々は、LLMが「等価性」と「継承性」という2つの基礎的関係を用いて、合理的な表現を持つかどうかを評価することに注力する。
論文 参考訳(メタデータ) (2024-10-18T07:34:21Z) - MlingConf: A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [23.384966485398184]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。
このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。
LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文 参考訳(メタデータ) (2024-10-16T11:46:55Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - MlingConf: A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [36.33453112932689]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。
このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。
LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文 参考訳(メタデータ) (2024-02-21T08:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。