論文の概要: Multi-round, Chain-of-thought Post-editing for Unfaithful Summaries
- arxiv url: http://arxiv.org/abs/2501.11273v1
- Date: Mon, 20 Jan 2025 04:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:14.675428
- Title: Multi-round, Chain-of-thought Post-editing for Unfaithful Summaries
- Title(参考訳): 不誠実なサプライヤーに対する多面的チェーン・オブ・シークレット後編集
- Authors: Yi-Hui Lee, Xiangci Li, Jessica Ouyang,
- Abstract要約: 近年の大規模言語モデル (LLM) は、自然言語理解および生成タスクの実行において顕著な能力を示している。
ニュース要約における忠実度評価におけるLCMの使用について検討し,人的判断と強い相関関係が得られた。
我々は、生成した要約とソース・ニュース・ドキュメントの現実的矛盾を特定・修正するための様々なチェーン・オブ・シークレット・プロンプトを実験した。
- 参考スコア(独自算出の注目度): 10.712226955584798
- License:
- Abstract: Recent large language models (LLMs) have demonstrated a remarkable ability to perform natural language understanding and generation tasks. In this work, we investigate the use of LLMs for evaluating faithfulness in news summarization, finding that it achieves a strong correlation with human judgments. We further investigate LLMs' capabilities as a faithfulness post-editor, experimenting with different chain-of-thought prompts for locating and correcting factual inconsistencies between a generated summary and the source news document and are able to achieve a higher editing success rate than was reported in prior work. We perform both automated and human evaluations of the post-edited summaries, finding that prompting LLMs using chain-of-thought reasoning about factual error types is an effective faithfulness post-editing strategy, performing comparably to fine-tuned post-editing models. We also demonstrate that multiple rounds of post-editing, which has not previously been explored, can be used to gradually improve the faithfulness of summaries whose errors cannot be fully corrected in a single round.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) は、自然言語理解および生成タスクの実行において顕著な能力を示している。
本研究では, ニュース要約における忠実度評価におけるLCMの使用について検討し, 人的判断と強い相関関係があることを見出した。
さらに,LLMsの忠実性後編集能力について検討し,生成した要約とソース・ニュース・ドキュメントの事実の矛盾を突き止め,修正するための異なるチェーン・オブ・シークレット・プロンプトを実験し,以前報告したよりも高い編集成功率を達成することができることを示す。
我々は,編集後要約の自動評価と人的評価の両方を行い,実ミスタイプに関するチェーン・オブ・シークレット・推論を用いてLLMを推し進めることが,編集後モデルに適合して有効な忠実化戦略であることを見出した。
また,これまで検討されていない複数ラウンドのポスト編集は,誤りを1ラウンドで完全に修正できない要約の忠実度を徐々に改善するためにも有効であることを示した。
関連論文リスト
- MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - What's Wrong? Refining Meeting Summaries with LLM Feedback [6.532478490187084]
本稿では,人間レビュープロセスを模倣した2段階プロセスを用いて,会議要約のためのマルチLLM補正手法を提案する。
QMSum Mistakeは、人によって注釈付けされた会議要約を9種類のエラータイプで自動生成する200のデータセットである。
特定ミスを実用的なフィードバックに変換することで,関連性,情報性,簡潔性,一貫性によって測定された要約の質を向上させる。
論文 参考訳(メタデータ) (2024-07-16T17:10:16Z) - Analyzing LLM Behavior in Dialogue Summarization: Unveiling Circumstantial Hallucination Trends [38.86240794422485]
対話要約のための大規模言語モデルの忠実度を評価する。
私たちの評価は幻覚を構成するものに関して微妙な点を呈する。
既存の指標より優れた微細な誤差検出のための2つのプロンプトベースのアプローチを導入する。
論文 参考訳(メタデータ) (2024-06-05T17:49:47Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。