論文の概要: Prediction of Arabic Legal Rulings using Large Language Models
- arxiv url: http://arxiv.org/abs/2310.10260v1
- Date: Mon, 16 Oct 2023 10:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 15:06:14.717566
- Title: Prediction of Arabic Legal Rulings using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたアラビア語法則の予測
- Authors: Adel Ammar, Anis Koubaa, Bilel Benjdira, Omar Najar, Serry Sibaee
- Abstract要約: 本稿では,10,813件の商業裁判所実例を対象としたアラビア裁判所判決の包括的予測分析の先駆者となる。
我々は,3つの基本モデル(LLaMA-7b,JAIS-13b,GPT3.5-turbo)と,ゼロショット,ワンショット,微調整の3つの訓練パラダイムを評価した。
GPT-3.5ベースのモデルは、アラビア語中心のJAISモデルの平均スコアを50%上回り、他のモデルよりも広いマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 1.3499500088995464
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the intricate field of legal studies, the analysis of court decisions is a
cornerstone for the effective functioning of the judicial system. The ability
to predict court outcomes helps judges during the decision-making process and
equips lawyers with invaluable insights, enhancing their strategic approaches
to cases. Despite its significance, the domain of Arabic court analysis remains
under-explored. This paper pioneers a comprehensive predictive analysis of
Arabic court decisions on a dataset of 10,813 commercial court real cases,
leveraging the advanced capabilities of the current state-of-the-art large
language models. Through a systematic exploration, we evaluate three prevalent
foundational models (LLaMA-7b, JAIS-13b, and GPT3.5-turbo) and three training
paradigms: zero-shot, one-shot, and tailored fine-tuning. Besides, we assess
the benefit of summarizing and/or translating the original Arabic input texts.
This leads to a spectrum of 14 model variants, for which we offer a granular
performance assessment with a series of different metrics (human assessment,
GPT evaluation, ROUGE, and BLEU scores). We show that all variants of LLaMA
models yield limited performance, whereas GPT-3.5-based models outperform all
other models by a wide margin, surpassing the average score of the dedicated
Arabic-centric JAIS model by 50%. Furthermore, we show that all scores except
human evaluation are inconsistent and unreliable for assessing the performance
of large language models on court decision predictions. This study paves the
way for future research, bridging the gap between computational linguistics and
Arabic legal analytics.
- Abstract(参考訳): 法学の複雑な分野において、裁判所決定の分析は司法制度の効果的な機能の基礎となる。
裁判所の成果を予測する能力は、意思決定プロセス中の裁判官を助け、弁護士に貴重な洞察を与え、事件に対する戦略的なアプローチを強化する。
その重要性にもかかわらず、アラビア語の宮廷分析の領域は未調査のままである。
本稿では,現在最先端の大規模言語モデルの高度な機能を活用し,10,813件の商業裁判所実例のデータセットに基づくアラビア裁判所決定の包括的予測分析を先導する。
系統的な探索を通じて, 一般的な3つの基礎モデル(LLaMA-7b, JAIS-13b, GPT3.5-turbo)と, ゼロショット, ワンショット, 微調整の3つの訓練パラダイムを評価する。
さらに、元のアラビア語入力テキストの要約および/または翻訳の利点を評価する。
これは14のモデル変異のスペクトルにつながり、一連の異なる指標(人間の評価、GPT評価、ROUGE、BLEUスコア)で詳細なパフォーマンス評価を提供する。
一方、GPT-3.5ベースのモデルは、アラビア語中心のJAISモデルの平均スコアを50%上回り、他のモデルよりも優れた性能を示した。
さらに, 人的評価以外のすべてのスコアは, 裁判所決定予測に基づく大規模言語モデルの性能評価に矛盾し, 信頼性が低いことを示す。
この研究は、計算言語学とアラビア語の法的分析のギャップを埋め、将来の研究の道を開くものである。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - Legal Judgment Reimagined: PredEx and the Rise of Intelligent AI Interpretation in Indian Courts [6.339932924789635]
textbfPrediction with textbfExplanation (textttPredEx)は、インドの文脈における法的判断予測と説明のための、専門家による最大のデータセットである。
このコーパスは、法的分析におけるAIモデルのトレーニングと評価を大幅に強化する。
論文 参考訳(メタデータ) (2024-06-06T14:57:48Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Advancing the Evaluation of Traditional Chinese Language Models: Towards
a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。
これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。
本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文 参考訳(メタデータ) (2023-09-15T14:52:23Z) - Black-Box Analysis: GPTs Across Time in Legal Textual Entailment Task [17.25356594832692]
本稿では,COLIEE Task 4 データセット上での GPT-3.5 (ChatGPT) と GPT-4 の性能解析を行う。
予備的な実験結果から,法的なテキスト・エンタテインメント・タスクの処理におけるモデルの強みや弱点に関する興味深い知見が得られた。
論文 参考訳(メタデータ) (2023-09-11T14:43:54Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Towards Better Instruction Following Language Models for Chinese:
Investigating the Impact of Training Data and Evaluation [12.86275938443485]
本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。
GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
論文 参考訳(メタデータ) (2023-04-16T18:37:39Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - A Survey on Legal Judgment Prediction: Datasets, Metrics, Models and
Challenges [73.34944216896837]
法定判断予測(LJP)は,事実記述に基づく判断結果の自動予測に自然言語処理(NLP)技術を適用している。
6言語で31のLJPデータセットを分析し、その構築過程を示し、LJPの分類方法を定義する。
異なる訴訟の8つの代表的データセットに対する最先端の結果を示し、オープンな課題について議論する。
論文 参考訳(メタデータ) (2022-04-11T04:06:28Z) - Lex Rosetta: Transfer of Predictive Models Across Languages,
Jurisdictions, and Legal Domains [40.58709137006848]
言語間で転送可能なGRU(Gated Recurrent Units)を用いたシーケンスラベリングモデルにおけるLanguage-Agnostic Sentence Representationsの使用を分析する。
トレーニング対象のコンテキストを超えて,モデルが一般化されることが分かりました。
複数のコンテキストでモデルをトレーニングすることで、ロバスト性が向上し、これまで見つからなかったコンテキストで評価する際の全体的なパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2021-12-15T04:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。