論文の概要: Zero-shot Faithfulness Evaluation for Text Summarization with Foundation
Language Model
- arxiv url: http://arxiv.org/abs/2310.11648v2
- Date: Thu, 14 Dec 2023 06:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 03:54:32.498591
- Title: Zero-shot Faithfulness Evaluation for Text Summarization with Foundation
Language Model
- Title(参考訳): 基礎言語モデルを用いたテキスト要約のためのゼロショット忠実度評価
- Authors: Qi Jia, Siyu Ren, Yizhu Liu, Kenny Q. Zhu
- Abstract要約: 本稿では,中程度の基礎言語モデルを用いて,ゼロショット忠実度の評価を行うことを提案する。
出力に整合したテキストをプレフィックスすることで、出力を予測する確率を増大させるという直感に基づいて、確率変化の組合せである新しい計量FFLMを導入する。
- 参考スコア(独自算出の注目度): 38.425790981273856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite tremendous improvements in natural language generation, summarization
models still suffer from the unfaithfulness issue. Previous work evaluates
faithfulness either using models trained on the other tasks or in-domain
synthetic data, or prompting a large model such as ChatGPT. This paper proposes
to do zero-shot faithfulness evaluation simply with a moderately-sized
foundation language model. We introduce a new metric FFLM, which is a
combination of probability changes based on the intuition that prefixing a
piece of text that is consistent with the output will increase the probability
of predicting the output. Experiments show that FFLM performs competitively
with or even outperforms ChatGPT on both inconsistency detection and
faithfulness rating with 24x fewer parameters. FFLM also achieves improvements
over other strong baselines.
- Abstract(参考訳): 自然言語生成の大幅な改善にもかかわらず、要約モデルは未だに不満足な問題に苦しんでいる。
これまでの研究は、他のタスクでトレーニングされたモデルやドメイン内の合成データを使ったり、ChatGPTのような大規模なモデルに刺激を与えたりした。
本稿では,適度な基礎言語モデルを用いて,単純にゼロショット忠実性評価を行うことを提案する。
出力に整合したテキストをプレフィックスすることで、出力を予測する確率を増大させるという直感に基づいて、確率変化の組合せである新しい計量FFLMを導入する。
実験の結果、fflmは24倍のパラメータで非一貫性検出と忠実性評価の両方において、chatgptと競合するか、あるいは上回るパフォーマンスを示している。
FFLMは他の強力なベースラインよりも改善されている。
関連論文リスト
- CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - ED-FAITH: Evaluating Dialogue Summarization on Faithfulness [35.73012379398233]
まず,対話要約のための忠実度尺度の体系的研究を行った。
我々は,ほとんどの指標が,ニュースデータセットでよく機能しているにもかかわらず,人間の判断と相関が低いことを観察した。
忠実度評価のための新しい尺度T0-Scoreを提案する。
論文 参考訳(メタデータ) (2022-11-15T19:33:50Z) - Masked Summarization to Generate Factually Inconsistent Summaries for
Improved Factual Consistency Checking [28.66287193703365]
本稿では,キー情報を隠蔽したソーステキストと参照要約を用いて,現実的に一貫性のない要約を生成することを提案する。
7つのベンチマークデータセットを用いた実験により,提案手法を用いて生成した要約に基づいて訓練された実例整合性分類器が既存モデルを上回っていることが示された。
論文 参考訳(メタデータ) (2022-05-04T12:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。