論文の概要: SIFiD: Reassess Summary Factual Inconsistency Detection with LLM
- arxiv url: http://arxiv.org/abs/2403.07557v1
- Date: Tue, 12 Mar 2024 11:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:56:15.210372
- Title: SIFiD: Reassess Summary Factual Inconsistency Detection with LLM
- Title(参考訳): SIFiD:LLMによるFactual Inconsistency Detectionの再評価
- Authors: Jiuding Yang, Hui Liu, Weidong Guo, Zhuwei Rao, Yu Xu, Di Niu
- Abstract要約: 本研究では,Large Language Models (LLMs) を用いた要約不整合検出について再検討する。
本稿では,自然言語推論を用いて文書内のキー文を識別するSIFiD(Summary Inconsistency Detection with Filtered Document)を提案する。
- 参考スコア(独自算出の注目度): 27.392514180175283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring factual consistency between the summary and the original document is
paramount in summarization tasks. Consequently, considerable effort has been
dedicated to detecting inconsistencies. With the advent of Large Language
Models (LLMs), recent studies have begun to leverage their advanced language
understanding capabilities for inconsistency detection. However, early attempts
have shown that LLMs underperform traditional models due to their limited
ability to follow instructions and the absence of an effective detection
methodology. In this study, we reassess summary inconsistency detection with
LLMs, comparing the performances of GPT-3.5 and GPT-4. To advance research in
LLM-based inconsistency detection, we propose SIFiD (Summary Inconsistency
Detection with Filtered Document) that identify key sentences within documents
by either employing natural language inference or measuring semantic similarity
between summaries and documents.
- Abstract(参考訳): 要約と原文書間の事実整合性の確保は要約タスクにおいて最重要である。
その結果,不整合の検出に多大な努力が払われた。
近年,Large Language Models (LLMs) の出現に伴い,非一貫性検出に先進的な言語理解能力を活用し始めた。
しかし、初期の試みでは、LLMは命令に従う能力の制限と効果的な検出方法がないため、従来のモデルよりも性能が低いことが示されている。
本研究では, GPT-3.5 と GPT-4 の性能を比較検討して, LLM による要約不整合検出を再評価する。
LLMに基づく不整合検出の研究を進めるために,要約と文書間の意味的類似性を測定することで,文書内のキー文を識別するSIFiD(Summary Inconsistency Detection with Filtered Document)を提案する。
関連論文リスト
- Large Language Models for Anomaly Detection in Computational Workflows: from Supervised Fine-Tuning to In-Context Learning [9.601067780210006]
本稿では,大規模言語モデル(LLM)を用いて,複雑なデータパターンの学習能力を活用することにより,ワークフローの異常検出を行う。
教師付き微調整 (SFT) では, 文分類のためのラベル付きデータに基づいて事前学習したLCMを微調整し, 異常を識別する。
論文 参考訳(メタデータ) (2024-07-24T16:33:04Z) - Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:49:47Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Evaluating Factual Consistency of Summaries with Large Language Models [24.416837319515896]
大規模言語モデル(LLM)の直接的推進による要約の事実整合性の評価について検討する。
実験により, LLM のプロンプトは, 全ての設定において, 過去の最良事実性システムより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:48:32Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。