論文の概要: Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends
- arxiv url: http://arxiv.org/abs/2406.03487v1
- Date: Wed, 5 Jun 2024 17:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:12:15.832617
- Title: Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends
- Title(参考訳): ダイアログ要約におけるLCMの挙動分析:現状の幻覚の傾向を解明する
- Authors: Sanjana Ramprasad, Elisa Ferracane, Zachary C. Lipton,
- Abstract要約: 対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
- 参考スコア(独自算出の注目度): 38.86240794422485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have considerably advanced the capabilities of summarization systems. However, they continue to face concerns about hallucinations. While prior work has evaluated LLMs extensively in news domains, most evaluation of dialogue summarization has focused on BART-based models, leaving a gap in our understanding of their faithfulness. Our work benchmarks the faithfulness of LLMs for dialogue summarization, using human annotations and focusing on identifying and categorizing span-level inconsistencies. Specifically, we focus on two prominent LLMs: GPT-4 and Alpaca-13B. Our evaluation reveals subtleties as to what constitutes a hallucination: LLMs often generate plausible inferences, supported by circumstantial evidence in the conversation, that lack direct evidence, a pattern that is less prevalent in older models. We propose a refined taxonomy of errors, coining the category of "Circumstantial Inference" to bucket these LLM behaviors and release the dataset. Using our taxonomy, we compare the behavioral differences between LLMs and older fine-tuned models. Additionally, we systematically assess the efficacy of automatic error detection methods on LLM summaries and find that they struggle to detect these nuanced errors. To address this, we introduce two prompt-based approaches for fine-grained error detection that outperform existing metrics, particularly for identifying "Circumstantial Inference."
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、要約システムの能力を大幅に進歩させてきた。
しかし、彼らは幻覚に悩まされ続けている。
先行研究はニュース分野においてLLMを広く評価してきたが、対話要約のほとんどの評価はBARTに基づくモデルに焦点を合わせており、その忠実さに対する理解のギャップが残されている。
我々の研究は、対話要約のためのLLMの忠実さ、人間のアノテーションの使用、およびスパンレベルの不整合の特定と分類に焦点をあてるものである。
具体的には, GPT-4 と Alpaca-13B の2つの顕著な LLM に焦点を当てる。
我々の評価は、幻覚を構成するものに関する微妙な点を明らかにしている: LLMは、しばしば、会話の状況証拠によって支えられ、直接的証拠が欠如しており、古いモデルでは一般的でないパターンを生成する。
本稿では,これらのLCMの挙動を把握し,データセットを解放するために,"Circumstantial Inference"というカテゴリを作成した誤りの分類法を提案する。
分類学を用いて、LLMと古い微調整モデルとの行動的差異を比較した。
さらに,LLM要約に対する自動誤り検出手法の有効性を体系的に評価し,これらの誤りを検出するのに苦労していることを見出した。
この問題に対処するために,既存の指標,特に"Circumtial Inference"の精度を向上する,きめ細かいエラー検出のための2つのプロンプトベースのアプローチを提案する。
関連論文リスト
- HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。
提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文 参考訳(メタデータ) (2025-02-12T04:17:02Z) - Forget What You Know about LLMs Evaluations - LLMs are Like a Chameleon [11.753349115726952]
大規模言語モデル(LLM)は、しばしば公開ベンチマークで優れているように見えるが、これらの高いスコアはデータセット固有のサーフェスキューへの過度な依存を隠蔽する可能性がある。
本稿では,ベンチマークプロンプトを歪ませるメタ評価フレームワークであるChameleon Benchmark Overfit Detector (C-BOD)を紹介する。
セマンティックコンテンツやラベルを保存しながら入力をリフレッシュすることで、C-BODはモデルのパフォーマンスが記憶パターンによって駆動されるかどうかを明らかにする。
論文 参考訳(メタデータ) (2025-02-11T10:43:36Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-02-20T18:58:49Z) - Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - Chainpoll: A high efficacy method for LLM hallucination detection [0.0]
そこで我々はChainPollという幻覚検出手法を紹介した。
我々はまた、最近の研究から幻覚検出指標を評価するためのベンチマークデータセットの洗練されたコレクションであるRealHallも公開した。
論文 参考訳(メタデータ) (2023-10-22T14:45:14Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。