論文の概要: ISQA: Informative Factuality Feedback for Scientific Summarization
- arxiv url: http://arxiv.org/abs/2404.13246v1
- Date: Sat, 20 Apr 2024 03:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:49:10.313400
- Title: ISQA: Informative Factuality Feedback for Scientific Summarization
- Title(参考訳): ISQA:科学要約のためのインフォームティブ・ファクチュアリティ・フィードバック
- Authors: Zekai Li, Yanxia Qin, Qian Liu, Min-Yen Kan,
- Abstract要約: Informative Scientific Question-Answering (ISQA) のフィードバックフットノートコードに基づく反復的ファクチャリティの精錬を提案する。
この方法は、正と負の両方の情報からなるモデル生成フィードバックを用いる。
これは、肯定的なフィードバックで検証されたステートメントを補強し、否定的なフィードバックで不正なステートメントを修正するために、要約エージェントに頼みます。
- 参考スコア(独自算出の注目度): 26.146954995257943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Iterative Facuality Refining on Informative Scientific Question-Answering (ISQA) feedback\footnote{Code is available at \url{https://github.com/lizekai-richard/isqa}}, a method following human learning theories that employs model-generated feedback consisting of both positive and negative information. Through iterative refining of summaries, it probes for the underlying rationale of statements to enhance the factuality of scientific summarization. ISQA does this in a fine-grained manner by asking a summarization agent to reinforce validated statements in positive feedback and fix incorrect ones in negative feedback. Our findings demonstrate that the ISQA feedback mechanism significantly improves the factuality of various open-source LLMs on the summarization task, as evaluated across multiple scientific datasets.
- Abstract(参考訳): Informative Scientific Question-Answering (ISQA) feedback\footnote{Code is available at \url{https://github.com/lizekai-richard/isqa}}。
要約の反復的精錬を通じて、科学的な要約の事実性を高めるために、文の基本的な理性を探究する。
ISQAは、肯定的なフィードバックで検証されたステートメントを補強し、否定的なフィードバックで不正なステートメントを修正するよう、要約エージェントに頼んで、これをきめ細かな方法で行う。
以上の結果から,ISQAフィードバック機構は,複数の科学的データセットで評価されるように,要約タスクにおける各種オープンソースLCMの事実性を大幅に向上することが示された。
関連論文リスト
- Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。
このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。
様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-06-28T09:09:36Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Generating Zero-shot Abstractive Explanations for Rumour Verification [46.897767694062004]
我々は,そのタスクを再構成して,噂の正確性に関するモデル中心のフリーテキストの説明を生成する。
大規模言語モデル(LLM)の少数ショット学習機能を利用する。
実験の結果,LLMは要約評価において人間と類似の一致を示すことができた。
論文 参考訳(メタデータ) (2024-01-23T12:29:37Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Towards Reliable and Fluent Large Language Models: Incorporating
Feedback Learning Loops in QA Systems [10.58737969057445]
我々は,大規模な言語モデルによって生成された応答の引用,正しさ,および流布性を評価することができる評論家モデルを訓練するためのデータセットを構築した。
本稿では,批判モデルを利用して生成したテキストの異質な側面をリアルタイムにフィードバックする自動フィードバック機構を提案する。
提案手法の有効性を実験的に検証し,4%の精度向上とMAUVE測定値の約8%の精度向上を図った。
論文 参考訳(メタデータ) (2023-09-08T09:39:53Z) - Grow-and-Clip: Informative-yet-Concise Evidence Distillation for Answer
Explanation [22.20733260041759]
我々は、QAモデルの解釈可能性を高めるために、解答の証拠が重要であると論じる。
我々は、証拠の概念を、情報的で簡潔で読みやすい文脈における支援事実として明確に定義する最初の人物である。
本稿では, トレードオフ情報性, 簡潔性, 可読性からエビデンスを抽出するGCEDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-13T17:18:17Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - FEQA: A Question Answering Evaluation Framework for Faithfulness
Assessment in Abstractive Summarization [34.2456005415483]
我々は,その資料から生成した要約の忠実さを評価する問題に取り組む。
現在のモデルでは、抽象性と忠実性のトレードオフが示されています。
本稿では,信頼度を基準とした質問応答(QA)尺度を提案する。
論文 参考訳(メタデータ) (2020-05-07T21:00:08Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。