論文の概要: SIFiD: Reassess Summary Factual Inconsistency Detection with LLM
- arxiv url: http://arxiv.org/abs/2403.07557v1
- Date: Tue, 12 Mar 2024 11:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:56:15.210372
- Title: SIFiD: Reassess Summary Factual Inconsistency Detection with LLM
- Title(参考訳): SIFiD:LLMによるFactual Inconsistency Detectionの再評価
- Authors: Jiuding Yang, Hui Liu, Weidong Guo, Zhuwei Rao, Yu Xu, Di Niu
- Abstract要約: 本研究では,Large Language Models (LLMs) を用いた要約不整合検出について再検討する。
本稿では,自然言語推論を用いて文書内のキー文を識別するSIFiD(Summary Inconsistency Detection with Filtered Document)を提案する。
- 参考スコア(独自算出の注目度): 27.392514180175283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring factual consistency between the summary and the original document is
paramount in summarization tasks. Consequently, considerable effort has been
dedicated to detecting inconsistencies. With the advent of Large Language
Models (LLMs), recent studies have begun to leverage their advanced language
understanding capabilities for inconsistency detection. However, early attempts
have shown that LLMs underperform traditional models due to their limited
ability to follow instructions and the absence of an effective detection
methodology. In this study, we reassess summary inconsistency detection with
LLMs, comparing the performances of GPT-3.5 and GPT-4. To advance research in
LLM-based inconsistency detection, we propose SIFiD (Summary Inconsistency
Detection with Filtered Document) that identify key sentences within documents
by either employing natural language inference or measuring semantic similarity
between summaries and documents.
- Abstract(参考訳): 要約と原文書間の事実整合性の確保は要約タスクにおいて最重要である。
その結果,不整合の検出に多大な努力が払われた。
近年,Large Language Models (LLMs) の出現に伴い,非一貫性検出に先進的な言語理解能力を活用し始めた。
しかし、初期の試みでは、LLMは命令に従う能力の制限と効果的な検出方法がないため、従来のモデルよりも性能が低いことが示されている。
本研究では, GPT-3.5 と GPT-4 の性能を比較検討して, LLM による要約不整合検出を再評価する。
LLMに基づく不整合検出の研究を進めるために,要約と文書間の意味的類似性を測定することで,文書内のキー文を識別するSIFiD(Summary Inconsistency Detection with Filtered Document)を提案する。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language
Inference and Claim Extraction [92.2477303232719]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue
Summarization [30.156812330101463]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-02-20T18:58:49Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Evaluating Factual Consistency of Summaries with Large Language Models [24.416837319515896]
大規模言語モデル(LLM)の直接的推進による要約の事実整合性の評価について検討する。
実験により, LLM のプロンプトは, 全ての設定において, 過去の最良事実性システムより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:48:32Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - Beyond Distributional Hypothesis: Let Language Models Learn Meaning-Text
Correspondence [45.9949173746044]
大規模事前学習言語モデル (PLM) が論理否定特性 (LNP) を満たさないことを示す。
そこで本研究では,意味テキスト対応を直接学習するための新しい中間訓練課題である「意味マッチング」を提案する。
このタスクにより、PLMは語彙意味情報を学習することができる。
論文 参考訳(メタデータ) (2022-05-08T08:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。