論文の概要: The Factuality of Large Language Models in the Legal Domain
- arxiv url: http://arxiv.org/abs/2409.11798v1
- Date: Wed, 18 Sep 2024 08:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 18:34:01.722607
- Title: The Factuality of Large Language Models in the Legal Domain
- Title(参考訳): 法律領域における大規模言語モデルの具体性
- Authors: Rajaa El Hamdani, Thomas Bonald, Fragkiskos Malliaros, Nils Holzenberger, Fabian Suchanek,
- Abstract要約: 本稿では,法域における知識基盤としての大規模言語モデル(LLM)の事実性について検討する。
事例法と法律に関する多様な事実質問のデータセットを設計する。
次に、データセットを用いて、精度、エイリアス、ファジィマッチングなど、異なる評価手法で複数のLCMを評価する。
- 参考スコア(独自算出の注目度): 8.111302195052641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the factuality of large language models (LLMs) as knowledge bases in the legal domain, in a realistic usage scenario: we allow for acceptable variations in the answer, and let the model abstain from answering when uncertain. First, we design a dataset of diverse factual questions about case law and legislation. We then use the dataset to evaluate several LLMs under different evaluation methods, including exact, alias, and fuzzy matching. Our results show that the performance improves significantly under the alias and fuzzy matching methods. Further, we explore the impact of abstaining and in-context examples, finding that both strategies enhance precision. Finally, we demonstrate that additional pre-training on legal documents, as seen with SaulLM, further improves factual precision from 63% to 81%.
- Abstract(参考訳): 本稿では,法域における知識基盤としての大規模言語モデル(LLM)の現実性について,現実的な利用シナリオとして考察する。
まず、事例法と法律に関する多様な事実質問のデータセットを設計する。
次に、データセットを用いて、精度、エイリアス、ファジィマッチングなど、異なる評価手法で複数のLCMを評価する。
その結果,エイリアス法やファジィマッチング法では,性能が大幅に向上することがわかった。
さらに, 両戦略が精度を高めることから, 禁忌例や文脈内例の影響について検討した。
最後に、SailLMで見られるように、法的文書に事前訓練を加えることで、事実の精度が63%から81%に向上することを示した。
関連論文リスト
- LawLLM: Law Large Language Model for the US Legal System [43.13850456765944]
我々は,米国法域に特化して設計されたマルチタスクモデルであるLawLLM(Law Large Language Model)を紹介する。
類似症例検索(SCR)、PCR(Precedent Case Recommendation)、LJP(Lawal Judgment Prediction)においてLawLLMが優れている
そこで本研究では,各タスクに対して,生の法定データをトレーニング可能な形式に変換する,カスタマイズされたデータ前処理手法を提案する。
論文 参考訳(メタデータ) (2024-07-27T21:51:30Z) - eagerlearners at SemEval2024 Task 5: The Legal Argument Reasoning Task in Civil Procedure [0.04096453902709291]
本研究では,3大言語モデルを用いたデータ分類におけるゼロショット法の性能について検討した。
私たちの主要なデータセットは、米国民事訴訟のドメインから来ています。
論文 参考訳(メタデータ) (2024-06-24T09:57:44Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Empowering Prior to Court Legal Analysis: A Transparent and Accessible Dataset for Defensive Statement Classification and Interpretation [5.646219481667151]
本稿では,裁判所の手続きに先立って,警察の面接中に作成された文の分類に適した新しいデータセットを提案する。
本稿では,直感的文と真偽を区別し,最先端のパフォーマンスを実現するための微調整DistilBERTモデルを提案する。
我々はまた、法律専門家と非専門主義者の両方がシステムと対話し、利益を得ることを可能にするXAIインターフェースも提示する。
論文 参考訳(メタデータ) (2024-05-17T11:22:27Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Query-driven Relevant Paragraph Extraction from Legal Judgments [1.2562034805037443]
法律専門家は、クエリに直接対処する情報をピンポイントするために、長い法的判断をナビゲートすることに悩まされることが多い。
本稿では,クエリに基づく法的判断から関連する段落を抽出する作業に焦点をあてる。
本稿では,欧州人権裁判所(ECtHR)のケース・ロー・ガイドを用いて,この課題のための特別なデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-31T08:03:39Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - GRATH: Gradual Self-Truthifying for Large Language Models [63.502835648056305]
GRATH(Gradual Self-Truthifying)は,大規模言語モデル(LLM)の真偽性を高めるためのポストプロセッシング手法である。
GRATHは、反復的に真理データを洗練し、モデルを更新する。
GRATHはTruthfulQAの最先端性能を達成し、MC1の精度は54.71%、MC2の精度は69.10%であり、70B-LLMよりも高い。
論文 参考訳(メタデータ) (2024-01-22T19:00:08Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Knowledge is Power: Understanding Causality Makes Legal judgment
Prediction Models More Generalizable and Robust [3.555105847974074]
法的判断予測(LJP)は、限られた法律実務者の労働負担を軽減するために法的支援を行う。
既存の手法の多くは、LJPタスクで微調整された様々な大規模事前学習言語モデルを適用し、一貫した改善を得る。
最先端モデル(SOTA)は,無関係情報(あるいは非因果情報)に基づいて判断予測を行う。
論文 参考訳(メタデータ) (2022-11-06T07:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。