Fugu-MT 論文翻訳(概要): Gaps or Hallucinations? Gazing into Machine-Generated Legal Analysis for Fine-grained Text Evaluations

論文の概要: Gaps or Hallucinations? Gazing into Machine-Generated Legal Analysis for Fine-grained Text Evaluations

arxiv url: http://arxiv.org/abs/2409.09947v2
Date: Mon, 23 Sep 2024 19:06:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-25 11:30:21.138688
Title: Gaps or Hallucinations? Gazing into Machine-Generated Legal Analysis for Fine-grained Text Evaluations
Title（参考訳）: ギャップか幻覚か : きめ細かいテキスト評価のための機械式法則解析への注視
Authors: Abe Bohan Hou, William Jurayj, Nils Holzenberger, Andrew Blair-Stanek, Benjamin Van Durme,
Abstract要約: LLM(Large Language Models)は、法律分析を行う専門家のための文書作成支援である。 LLMは、非専門職や既存のテキスト評価指標によって認識しにくい方法で、この設定で幻覚を起こすことが多い。厳密な誤った意味での幻覚とは対照的に、中性的なギャップの概念を導入し、人間による記述と機械による法的な分析の違いを言及する。
参考スコア（独自算出の注目度）: 38.30926471814935
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) show promise as a writing aid for professionals performing legal analyses. However, LLMs can often hallucinate in this setting, in ways difficult to recognize by non-professionals and existing text evaluation metrics. In this work, we pose the question: when can machine-generated legal analysis be evaluated as acceptable? We introduce the neutral notion of gaps, as opposed to hallucinations in a strict erroneous sense, to refer to the difference between human-written and machine-generated legal analysis. Gaps do not always equate to invalid generation. Working with legal experts, we consider the CLERC generation task proposed in Hou et al. (2024b), leading to a taxonomy, a fine-grained detector for predicting gap categories, and an annotated dataset for automatic evaluation. Our best detector achieves 67% F1 score and 80% precision on the test set. Employing this detector as an automated metric on legal analysis generated by SOTA LLMs, we find around 80% contain hallucinations of different kinds.
Abstract（参考訳）: LLM(Large Language Models)は、法律分析を行う専門家のための文書作成支援である。しかし、LLMは、非専門職や既存のテキスト評価指標によって認識しにくい方法で、この設定で幻覚することが多い。この研究で我々は、機械生成の法的な分析をいつ許容できるのかという疑問を提起する。厳密な誤った意味での幻覚とは対照的に、中性的なギャップの概念を導入し、人間による記述と機械による法的な分析の違いを言及する。ギャップは常に無効な生成に等しいとは限らない。法の専門家と共同で,Hou et al (2024b) で提案された CLERC 生成タスクを考慮し,分類,ギャップカテゴリ予測のためのきめ細かい検出,自動評価のための注釈付きデータセットについて検討した。我々の最良の検出器は、テストセットで67%のF1スコアと80%の精度を達成する。この検出器をSOTA LLMの法則解析に基づく自動測定値として用いると、約80%に異なる種類の幻覚が含まれていることが分かる。

関連論文リスト

Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models [57.834711966432685]
哲学者ハリー・フランクフルト(Harry Frankfurt)によって概念化されたブルシット(Bullshit)は、その真理の価値を問わない言明を指す。本稿では,大言語モデルの真偽に対する無関心を定量化する新しい指標であるブルシット指数を紹介する。我々は、政治的文脈で一般的な機械いじめを観察し、軽快な言葉が支配的な戦略である。
論文参考訳（メタデータ） (2025-07-10T07:11:57Z)
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。 CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文参考訳（メタデータ） (2025-05-21T10:08:39Z)
C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation [58.40263551616771]
本稿では,いくつかの知識文書に基づいて,詳細なQAデータセットを自動的に構築するエージェントフレームワークであるHaluAgentを紹介する。本実験は,手作業で設計したルールと迅速な最適化により,生成データの品質が向上できることを実証する。
論文参考訳（メタデータ） (2025-04-14T12:21:55Z)
Fine-tuning Large Language Models for Improving Factuality in Legal Question Answering [30.795942355722797]
幻覚(英: Hallucination、または誤った情報や偽造情報の生成)は、大きな言語モデルにおいて重要な課題である。行動クローニングと新しいハードサンプル認識反復的直接選好最適化(HIPO)を統合した幻覚緩和手法を提案する。本研究は,新たに提案された非半減期統計率など,様々な指標において顕著な改善を示すものである。
論文参考訳（メタデータ） (2025-01-11T12:08:15Z)
Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools [32.78336381381673]
本稿では,AI駆動型法律研究ツールの事前登録による実証評価について報告する。 LexisNexis(Lexis+ AI)とThomson Reuters(Westlaw AI-Assisted ResearchとAsk Practical Law AI)によるAI研究ツールは、それぞれ17%から33%の時間で幻覚化している。それは、AIのアウトプットを監督し検証する法的専門家の責任を知らせる証拠を提供する。
論文参考訳（メタデータ） (2024-05-30T17:56:05Z)
Explainable machine learning multi-label classification of Spanish legal judgements [6.817247544942709]
本稿では,判断文(文)の多ラベル分類に機械学習を適用し,説明目的の視覚的・自然言語的記述を行うハイブリッドシステムを提案する。我々のソリューションは、法の専門家によって注釈付けされたラベル付きデータセット上で85%以上のマイクロ精度を達成する。
論文参考訳（メタデータ） (2024-05-27T19:16:42Z)
Automatic explanation of the classification of Spanish legal judgments in jurisdiction-dependent law categories with tree estimators [6.354358255072839]
この研究は、自然言語処理(NLP)と機械学習(ML)を組み合わせて、法的テキストを説明可能な方法で分類するシステムに寄与する。木構造決定経路の閾値分岐値と決定に関わる特徴を解析する。法の専門家は我々の解決策を検証しており、この知識は「ループのエキスパート」辞書として説明のプロセスにも組み込まれている。
論文参考訳（メタデータ） (2024-03-30T17:59:43Z)
HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文参考訳（メタデータ） (2024-02-25T22:23:37Z)
Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文参考訳（メタデータ） (2024-02-16T08:10:34Z)
Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文参考訳（メタデータ） (2024-01-12T19:02:48Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)
Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation [5.043563227694139]
大規模な言語モデル(より大きなLM)は、幻覚的内容を含むテキストを生成できる。各種の命令調整型LMの自己コントラクションに関する包括的調査を行う。本稿では,自己矛盾を効果的に検出・緩和する新しいプロンプトベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-25T08:43:46Z)
Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。