論文の概要: Gaps or Hallucinations? Gazing into Machine-Generated Legal Analysis for Fine-grained Text Evaluations
- arxiv url: http://arxiv.org/abs/2409.09947v2
- Date: Mon, 23 Sep 2024 19:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-25 11:30:21.138688
- Title: Gaps or Hallucinations? Gazing into Machine-Generated Legal Analysis for Fine-grained Text Evaluations
- Title(参考訳): ギャップか幻覚か : きめ細かいテキスト評価のための機械式法則解析への注視
- Authors: Abe Bohan Hou, William Jurayj, Nils Holzenberger, Andrew Blair-Stanek, Benjamin Van Durme,
- Abstract要約: LLM(Large Language Models)は、法律分析を行う専門家のための文書作成支援である。
LLMは、非専門職や既存のテキスト評価指標によって認識しにくい方法で、この設定で幻覚を起こすことが多い。
厳密な誤った意味での幻覚とは対照的に、中性的なギャップの概念を導入し、人間による記述と機械による法的な分析の違いを言及する。
- 参考スコア(独自算出の注目度): 38.30926471814935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) show promise as a writing aid for professionals performing legal analyses. However, LLMs can often hallucinate in this setting, in ways difficult to recognize by non-professionals and existing text evaluation metrics. In this work, we pose the question: when can machine-generated legal analysis be evaluated as acceptable? We introduce the neutral notion of gaps, as opposed to hallucinations in a strict erroneous sense, to refer to the difference between human-written and machine-generated legal analysis. Gaps do not always equate to invalid generation. Working with legal experts, we consider the CLERC generation task proposed in Hou et al. (2024b), leading to a taxonomy, a fine-grained detector for predicting gap categories, and an annotated dataset for automatic evaluation. Our best detector achieves 67% F1 score and 80% precision on the test set. Employing this detector as an automated metric on legal analysis generated by SOTA LLMs, we find around 80% contain hallucinations of different kinds.
- Abstract(参考訳): LLM(Large Language Models)は、法律分析を行う専門家のための文書作成支援である。
しかし、LLMは、非専門職や既存のテキスト評価指標によって認識しにくい方法で、この設定で幻覚することが多い。
この研究で我々は、機械生成の法的な分析をいつ許容できるのかという疑問を提起する。
厳密な誤った意味での幻覚とは対照的に、中性的なギャップの概念を導入し、人間による記述と機械による法的な分析の違いを言及する。
ギャップは常に無効な生成に等しいとは限らない。
法の専門家と共同で,Hou et al (2024b) で提案された CLERC 生成タスクを考慮し,分類,ギャップカテゴリ予測のためのきめ細かい検出,自動評価のための注釈付きデータセットについて検討した。
我々の最良の検出器は、テストセットで67%のF1スコアと80%の精度を達成する。
この検出器をSOTA LLMの法則解析に基づく自動測定値として用いると、約80%に異なる種類の幻覚が含まれていることが分かる。
関連論文リスト
- Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools [32.78336381381673]
本稿では,AI駆動型法律研究ツールの事前登録による実証評価について報告する。
LexisNexis(Lexis+ AI)とThomson Reuters(Westlaw AI-Assisted ResearchとAsk Practical Law AI)によるAI研究ツールは、それぞれ17%から33%の時間で幻覚化している。
それは、AIのアウトプットを監督し検証する法的専門家の責任を知らせる証拠を提供する。
論文 参考訳(メタデータ) (2024-05-30T17:56:05Z) - Explainable machine learning multi-label classification of Spanish legal judgements [6.817247544942709]
本稿では,判断文(文)の多ラベル分類に機械学習を適用し,説明目的の視覚的・自然言語的記述を行うハイブリッドシステムを提案する。
我々のソリューションは、法の専門家によって注釈付けされたラベル付きデータセット上で85%以上のマイクロ精度を達成する。
論文 参考訳(メタデータ) (2024-05-27T19:16:42Z) - Automatic explanation of the classification of Spanish legal judgments in jurisdiction-dependent law categories with tree estimators [6.354358255072839]
この研究は、自然言語処理(NLP)と機械学習(ML)を組み合わせて、法的テキストを説明可能な方法で分類するシステムに寄与する。
木構造決定経路の閾値分岐値と決定に関わる特徴を解析する。
法の専門家は我々の解決策を検証しており、この知識は「ループのエキスパート」辞書として説明のプロセスにも組み込まれている。
論文 参考訳(メタデータ) (2024-03-30T17:59:43Z) - HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination
Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす
本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。
フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文 参考訳(メタデータ) (2024-02-25T22:23:37Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation [92.5132418788568]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
1) 幻覚率, 解答の幻覚傾向, 解答が非関連部分集合の通路に存在しない場合, および(ii) 誤差率, モデル不正確さを測定し, 関連する部分集合の通路を認識する。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation [5.043563227694139]
大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。
各種の命令調整型LMの自己コントラクションに関する包括的調査を行う。
本稿では,自己矛盾を効果的に検出・緩和する新しいプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T08:43:46Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。