論文の概要: Gaps or Hallucinations? Gazing into Machine-Generated Legal Analysis for Fine-grained Text Evaluations
- arxiv url: http://arxiv.org/abs/2409.09947v2
- Date: Mon, 23 Sep 2024 19:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-25 11:30:21.138688
- Title: Gaps or Hallucinations? Gazing into Machine-Generated Legal Analysis for Fine-grained Text Evaluations
- Title(参考訳): ギャップか幻覚か : きめ細かいテキスト評価のための機械式法則解析への注視
- Authors: Abe Bohan Hou, William Jurayj, Nils Holzenberger, Andrew Blair-Stanek, Benjamin Van Durme,
- Abstract要約: LLM(Large Language Models)は、法律分析を行う専門家のための文書作成支援である。
LLMは、非専門職や既存のテキスト評価指標によって認識しにくい方法で、この設定で幻覚を起こすことが多い。
厳密な誤った意味での幻覚とは対照的に、中性的なギャップの概念を導入し、人間による記述と機械による法的な分析の違いを言及する。
- 参考スコア(独自算出の注目度): 38.30926471814935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) show promise as a writing aid for professionals performing legal analyses. However, LLMs can often hallucinate in this setting, in ways difficult to recognize by non-professionals and existing text evaluation metrics. In this work, we pose the question: when can machine-generated legal analysis be evaluated as acceptable? We introduce the neutral notion of gaps, as opposed to hallucinations in a strict erroneous sense, to refer to the difference between human-written and machine-generated legal analysis. Gaps do not always equate to invalid generation. Working with legal experts, we consider the CLERC generation task proposed in Hou et al. (2024b), leading to a taxonomy, a fine-grained detector for predicting gap categories, and an annotated dataset for automatic evaluation. Our best detector achieves 67% F1 score and 80% precision on the test set. Employing this detector as an automated metric on legal analysis generated by SOTA LLMs, we find around 80% contain hallucinations of different kinds.
- Abstract(参考訳): LLM(Large Language Models)は、法律分析を行う専門家のための文書作成支援である。
しかし、LLMは、非専門職や既存のテキスト評価指標によって認識しにくい方法で、この設定で幻覚することが多い。
この研究で我々は、機械生成の法的な分析をいつ許容できるのかという疑問を提起する。
厳密な誤った意味での幻覚とは対照的に、中性的なギャップの概念を導入し、人間による記述と機械による法的な分析の違いを言及する。
ギャップは常に無効な生成に等しいとは限らない。
法の専門家と共同で,Hou et al (2024b) で提案された CLERC 生成タスクを考慮し,分類,ギャップカテゴリ予測のためのきめ細かい検出,自動評価のための注釈付きデータセットについて検討した。
我々の最良の検出器は、テストセットで67%のF1スコアと80%の精度を達成する。
この検出器をSOTA LLMの法則解析に基づく自動測定値として用いると、約80%に異なる種類の幻覚が含まれていることが分かる。
関連論文リスト
- ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T01:15:07Z) - Fine-tuning Large Language Models for Improving Factuality in Legal Question Answering [30.795942355722797]
幻覚(英: Hallucination、または誤った情報や偽造情報の生成)は、大きな言語モデルにおいて重要な課題である。
行動クローニングと新しいハードサンプル認識反復的直接選好最適化(HIPO)を統合した幻覚緩和手法を提案する。
本研究は,新たに提案された非半減期統計率など,様々な指標において顕著な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-11T12:08:15Z) - Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools [32.78336381381673]
本稿では,AI駆動型法律研究ツールの事前登録による実証評価について報告する。
LexisNexis(Lexis+ AI)とThomson Reuters(Westlaw AI-Assisted ResearchとAsk Practical Law AI)によるAI研究ツールは、それぞれ17%から33%の時間で幻覚化している。
それは、AIのアウトプットを監督し検証する法的専門家の責任を知らせる証拠を提供する。
論文 参考訳(メタデータ) (2024-05-30T17:56:05Z) - Explainable machine learning multi-label classification of Spanish legal judgements [6.817247544942709]
本稿では,判断文(文)の多ラベル分類に機械学習を適用し,説明目的の視覚的・自然言語的記述を行うハイブリッドシステムを提案する。
我々のソリューションは、法の専門家によって注釈付けされたラベル付きデータセット上で85%以上のマイクロ精度を達成する。
論文 参考訳(メタデータ) (2024-05-27T19:16:42Z) - HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination
Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす
本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。
フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文 参考訳(メタデータ) (2024-02-25T22:23:37Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation [5.043563227694139]
大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。
各種の命令調整型LMの自己コントラクションに関する包括的調査を行う。
本稿では,自己矛盾を効果的に検出・緩和する新しいプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T08:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。