論文の概要: Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools
- arxiv url: http://arxiv.org/abs/2405.20362v1
- Date: Thu, 30 May 2024 17:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:44:15.884052
- Title: Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools
- Title(参考訳): 幻覚のない? 先進的なAI法研究ツールの信頼性の評価
- Authors: Varun Magesh, Faiz Surani, Matthew Dahl, Mirac Suzgun, Christopher D. Manning, Daniel E. Ho,
- Abstract要約: 本稿では,AI駆動型法律研究ツールの事前登録による実証評価について報告する。
LexisNexis(Lexis+ AI)とThomson Reuters(Westlaw AI-Assisted ResearchとAsk Practical Law AI)によるAI研究ツールは、それぞれ17%から33%の時間で幻覚化している。
それは、AIのアウトプットを監督し検証する法的専門家の責任を知らせる証拠を提供する。
- 参考スコア(独自算出の注目度): 32.78336381381673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal practice has witnessed a sharp rise in products incorporating artificial intelligence (AI). Such tools are designed to assist with a wide range of core legal tasks, from search and summarization of caselaw to document drafting. But the large language models used in these tools are prone to "hallucinate," or make up false information, making their use risky in high-stakes domains. Recently, certain legal research providers have touted methods such as retrieval-augmented generation (RAG) as "eliminating" (Casetext, 2023) or "avoid[ing]" hallucinations (Thomson Reuters, 2023), or guaranteeing "hallucination-free" legal citations (LexisNexis, 2023). Because of the closed nature of these systems, systematically assessing these claims is challenging. In this article, we design and report on the first preregistered empirical evaluation of AI-driven legal research tools. We demonstrate that the providers' claims are overstated. While hallucinations are reduced relative to general-purpose chatbots (GPT-4), we find that the AI research tools made by LexisNexis (Lexis+ AI) and Thomson Reuters (Westlaw AI-Assisted Research and Ask Practical Law AI) each hallucinate between 17% and 33% of the time. We also document substantial differences between systems in responsiveness and accuracy. Our article makes four key contributions. It is the first to assess and report the performance of RAG-based proprietary legal AI tools. Second, it introduces a comprehensive, preregistered dataset for identifying and understanding vulnerabilities in these systems. Third, it proposes a clear typology for differentiating between hallucinations and accurate legal responses. Last, it provides evidence to inform the responsibilities of legal professionals in supervising and verifying AI outputs, which remains a central open question for the responsible integration of AI into law.
- Abstract(参考訳): 法律実務は、人工知能(AI)を取り入れた製品の急激な増加を目撃している。
このようなツールは、ケースローの検索や要約から文書起草まで、幅広い法的タスクを支援するように設計されている。
しかし、これらのツールで使われる大きな言語モデルは、"幻覚"したり、偽情報を作ったりしがちで、高いリスクを持つドメインでの使用を危険にさらす。
近年、一部の法律研究プロバイダは、検索強化世代(RAG)を「消去」(Casetext, 2023)や「avoid[ing]」幻覚(Thomson Reuters, 2023)、あるいは「幻覚のない」法的な引用を保証する方法(LexisNexis, 2023)などと宣伝している。
これらのシステムのクローズドな性質のため、これらの主張を体系的に評価することは困難である。
本稿では,AI駆動型法律研究ツールの事前登録による実証評価について,その設計と報告を行う。
プロバイダの主張が過大評価されていることを実証します。
幻覚は汎用チャットボット(GPT-4)と比較して減少するが、LexisNexis(Lexis+ AI)とThomson Reuters(Westlaw AI-Assisted ResearchとAsk Practical Law AI)によるAI研究ツールは、それぞれ17%から33%の時間で幻覚化されている。
また、応答性と精度におけるシステム間の大きな違いも文書化しています。
私たちの記事は4つの重要な貢献をしている。
RAGベースのプロプライエタリな法的AIツールのパフォーマンスを評価し、報告するのは、これが初めてである。
第二に、システム内の脆弱性を特定し、理解するための、包括的で事前登録されたデータセットを導入している。
第三に、幻覚と正確な法的反応を区別するための明確な型付けを提案する。
最後に、AIのアウトプットを監督し検証する法的専門家の責任を知らせる証拠を提供する。
関連論文リスト
- Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Gaps or Hallucinations? Gazing into Machine-Generated Legal Analysis for Fine-grained Text Evaluations [38.30926471814935]
LLM(Large Language Models)は、法律分析を行う専門家のための文書作成支援である。
LLMは、非専門職や既存のテキスト評価指標によって認識しにくい方法で、この設定で幻覚を起こすことが多い。
厳密な誤った意味での幻覚とは対照的に、中性的なギャップの概念を導入し、人間による記述と機械による法的な分析の違いを言及する。
論文 参考訳(メタデータ) (2024-09-16T02:38:38Z) - Consent in Crisis: The Rapid Decline of the AI Data Commons [74.68176012363253]
汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。
我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
論文 参考訳(メタデータ) (2024-07-20T16:50:18Z) - It Cannot Be Right If It Was Written by AI: On Lawyers' Preferences of Documents Perceived as Authored by an LLM vs a Human [0.6827423171182154]
大きな言語モデル(LLM)は、ある種類の法律文書を自動的に生成する未来を可能にする。
この研究は、成熟した生成AIシステムへの継続的な移行の必要な分析である。
我々の分析では、AIによって生成されたと考えられるものよりも、人間によって作成されたと考えられる文書が明らかに好まれていた。
論文 参考訳(メタデータ) (2024-07-09T12:11:25Z) - Promises and pitfalls of artificial intelligence for legal applications [19.8511844390731]
この主張は現在の証拠には支持されないと我々は主張する。
私たちは3種類の法的タスクにおいて、AIの役割がますます広くなっていることを掘り下げます。
法的な文脈におけるAIの評価と展開の改善を推奨する。
論文 参考訳(メタデータ) (2024-01-10T19:50:37Z) - Insights into Classifying and Mitigating LLMs' Hallucinations [48.04565928175536]
本稿では,AI幻覚の根本原因を解明し,人工知能におけるその意義を明らかにする。
我々は,大規模な言語モデルの全体的な信頼性を高めることを目的として,幻覚を緩和するための潜在的戦略を探究する。
論文 参考訳(メタデータ) (2023-11-14T12:30:28Z) - Counter Turing Test CT^2: AI-Generated Text Detection is Not as Easy as
You May Think -- Introducing AI Detectability Index [9.348082057533325]
AI生成テキスト検出(AGTD)はすでに研究で注目を集めているトピックとして現れている。
本稿では,既存のAGTD手法の脆弱性を総合的に評価することを目的とした手法のベンチマークであるCounter Turing Test (CT2)を紹介する。
論文 参考訳(メタデータ) (2023-10-08T06:20:36Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Compliance Challenges in Forensic Image Analysis Under the Artificial
Intelligence Act [8.890638003061605]
法医学的画像解析における機械学習の利用が、なぜハイリスクに分類されるのかを概観する。
ドラフトAI法の下では、法執行機関で使用されるリスクの高いAIシステムは許可されるが、必須要件に従わなければならない。
論文 参考訳(メタデータ) (2022-03-01T14:03:23Z) - How Does NLP Benefit Legal System: A Summary of Legal Artificial
Intelligence [81.04070052740596]
法律人工知能(Legal AI)は、人工知能、特に自然言語処理の技術を適用して、法的領域におけるタスクに役立てることに焦点を当てている。
本稿では,LegalAIにおける研究の歴史,現状,今後の方向性について紹介する。
論文 参考訳(メタデータ) (2020-04-25T14:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。