論文の概要: ALARB: An Arabic Legal Argument Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2510.00694v1
- Date: Wed, 01 Oct 2025 09:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.490786
- Title: ALARB: An Arabic Legal Argument Reasoning Benchmark
- Title(参考訳): ALARB:アラビア法定条項のベンチマーク
- Authors: Harethah Abu Shairah, Somayah AlHarbi, Abdulaziz AlHussein, Sameer Alsabea, Omar Shaqaqi, Hebah AlShamlan, Omar Knio, George Turkiyyah,
- Abstract要約: アラビア法域内の大規模言語モデル(LLM)の推論能力を評価するために設計された,データセットとタスクスイートであるALARBを紹介する。
データセットは、サウジアラビアからの13万件の商業裁判所事件で構成され、各事件には、提示された事実、裁判所の理由、判決、および規制文書から抽出された引用条項が含まれる。
ALARBを用いた定型12Bパラメータモデルの命令チューニングにより,検証予測とアラビア判定生成の性能が著しく向上することを示す。
- 参考スコア(独自算出の注目度): 0.22485007639406518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ALARB, a dataset and suite of tasks designed to evaluate the reasoning capabilities of large language models (LLMs) within the Arabic legal domain. While existing Arabic benchmarks cover some knowledge-intensive tasks such as retrieval and understanding, substantial datasets focusing specifically on multistep reasoning for Arabic LLMs, especially in open-ended contexts, are lacking. The dataset comprises over 13K commercial court cases from Saudi Arabia, with each case including the facts presented, the reasoning of the court, the verdict, as well as the cited clauses extracted from the regulatory documents. We define a set of challenging tasks leveraging this dataset and reflecting the complexity of real-world legal reasoning, including verdict prediction, completion of reasoning chains in multistep legal arguments, and identification of relevant regulations based on case facts. We benchmark a representative selection of current open and closed Arabic LLMs on these tasks and demonstrate the dataset's utility for instruction tuning. Notably, we show that instruction-tuning a modest 12B parameter model using ALARB significantly enhances its performance in verdict prediction and Arabic verdict generation, reaching a level comparable to that of GPT-4o.
- Abstract(参考訳): アラビア法域内の大規模言語モデル(LLM)の推論能力を評価するために設計された,データセットとタスクスイートであるALARBを紹介する。
既存のアラビアのベンチマークでは、検索や理解などの知識集約的なタスクを網羅しているが、アラビアのLLMの多段階推論に焦点を当てたデータセットは、特にオープンエンドの文脈では欠落している。
データセットは、サウジアラビアからの13万件の商業裁判所事件で構成され、各事件には、提示された事実、裁判所の理由、判決、および規制文書から抽出された引用条項が含まれる。
我々は,このデータセットを活用する上で,検証予測,多段階の法的議論における推論チェーンの完成,事例事実に基づく関連する規制の特定など,現実の法的推論の複雑さを反映した課題セットを定義した。
本研究は,これらの課題に対して,現在のオープンおよびクローズドアラビア LLM の代表的な選択をベンチマークし,このデータセットの命令チューニングの有用性を実証する。
特に, ALARBを用いた命令チューニングでは, GPT-4o に匹敵するレベルに達し, 検証予測やアラビア判定生成の性能が著しく向上することを示す。
関連論文リスト
- A Law Reasoning Benchmark for LLM with Tree-Organized Structures including Factum Probandum, Evidence and Experiences [76.73731245899454]
本稿では,階層的なファクトラム,証拠,暗黙的な経験に富む透明な法理推論スキーマを提案する。
このスキーマにインスパイアされた課題は、テキストのケース記述を取り込み、最終決定を正当化する階層構造を出力する。
このベンチマークは、Intelligent Courtにおける透明で説明可能なAI支援法推論の道を開く」。
論文 参考訳(メタデータ) (2025-03-02T10:26:54Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - Can Large Language Models Predict the Outcome of Judicial Decisions? [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において例外的な機能を示す。
LLaMA-3.2-3B や LLaMA-3.1-8B を含む最先端のオープンソース LLM を様々な構成でベンチマークする。
本結果は,タスク固有のコンテキストにおいて,細調整された小型モデルが大規模モデルに匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-15T11:32:35Z) - ArabLegalEval: A Multitask Benchmark for Assessing Arabic Legal Knowledge in Large Language Models [0.0]
ArabLegalEvalは、大規模言語モデル(LLM)のアラビア語法的知識を評価するためのベンチマークデータセットである。
MMLUとLegalBenchのデータセットにインスパイアされたArabLegalEvalは、サウジアラビアの法的文書から得られた複数のタスクと、質問を合成する。
本研究の目的は、アラビア語の法的な問題を解くために必要な能力を分析し、最先端のLLMの性能をベンチマークすることである。
論文 参考訳(メタデータ) (2024-08-15T07:09:51Z) - Legal Judgment Reimagined: PredEx and the Rise of Intelligent AI Interpretation in Indian Courts [6.339932924789635]
textbfPrediction with textbfExplanation (textttPredEx)は、インドの文脈における法的判断予測と説明のための、専門家による最大のデータセットである。
このコーパスは、法的分析におけるAIモデルのトレーニングと評価を大幅に強化する。
論文 参考訳(メタデータ) (2024-06-06T14:57:48Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。