論文の概要: CoP: Factual Inconsistency Detection by Controlling the Preference
- arxiv url: http://arxiv.org/abs/2212.01611v1
- Date: Sat, 3 Dec 2022 13:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:30:29.485363
- Title: CoP: Factual Inconsistency Detection by Controlling the Preference
- Title(参考訳): CoP: 優先度制御によるFactual Unconsistency Detection
- Authors: Shuaijie She, Xiang Geng, Shujian Huang, Jiajun Chen
- Abstract要約: 本稿では、生成モデルの好みをプロンプトの助けを借りて制御することで、CoPという教師なしのフレームワークを提案する。
適切に設計されたプロンプトにより、我々のフレームワークは特定の嗜好を評価し、きめ細かい不整合のカテゴリの測定に役立てることができる。
実験の結果,本フレームワークは3つの現実的不整合検出タスクにおいて,新たなSOTA結果を実現することがわかった。
- 参考スコア(独自算出の注目度): 45.4045488637761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstractive summarization is the process of generating a summary given a
document as input. Although significant progress has been made, the factual
inconsistency between the document and the generated summary still limits its
practical applications. Previous work found that the probabilities assigned by
the generation model reflect its preferences for the generated summary,
including the preference for factual consistency, and the preference for the
language or knowledge prior as well. To separate the preference for factual
consistency, we propose an unsupervised framework named CoP by controlling the
preference of the generation model with the help of prompt. More specifically,
the framework performs an extra inference step in which a text prompt is
introduced as an additional input. In this way, another preference is described
by the generation probability of this extra inference process. The difference
between the above two preferences, i.e. the difference between the
probabilities, could be used as measurements for detecting factual
inconsistencies. Interestingly, we found that with the properly designed
prompt, our framework could evaluate specific preferences and serve as
measurements for fine-grained categories of inconsistency, such as
entity-related inconsistency, coreference-related inconsistency, etc. Moreover,
our framework could also be extended to the supervised setting to learn better
prompt from the labeled data as well. Experiments show that our framework
achieves new SOTA results on three factual inconsistency detection tasks.
- Abstract(参考訳): 抽象要約は、文書を入力として与えられた要約を生成する過程である。
かなりの進展があったが、文書と生成された要約との間の現実的な矛盾は、その実用的応用を制限している。
前回の研究では、生成モデルによって割り当てられた確率は、結果整合性の選好、言語や知識の選好など、生成された要約に対する選好を反映していることがわかった。
事実整合性の選好を分離するために,プロンプトの助けを借りて生成モデルの選好を制御し,教師なしフレームワークCoPを提案する。
より具体的には、このフレームワークは追加の入力としてテキストプロンプトが導入される追加の推論ステップを実行する。
このように、別の選好は、この余分な推論プロセスの生成確率によって記述される。
上記の2つの選好の違い、すなわち確率の差は、事実的不一致を検出するための測定として使用できる。
興味深いことに、適切に設計されたプロンプトによって、我々のフレームワークは特定の嗜好を評価し、エンティティ関連不整合、コア参照関連不整合など、きめ細かい不整合のカテゴリを計測できることがわかった。
さらに、当社のフレームワークは、ラベル付きデータからより良いプロンプトを学ぶために、教師付き設定に拡張することも可能です。
実験の結果,3つの非一貫性検出タスクにおいて新たなsota結果が得られた。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - The Penalized Inverse Probability Measure for Conformal Classification [0.5172964916120902]
この研究は、Pinalized Inverse Probability(PIP)の非整合性スコアと、その正規化バージョンRePIPを導入し、効率性と情報性の両方を共同で最適化する。
この研究は、PIPに基づく共形分類器が、他の非整合性対策と比較して正確に望ましい振る舞いを示し、情報性と効率のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2024-06-13T07:37:16Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - R$^2$F: A General Retrieval, Reading and Fusion Framework for
Document-level Natural Language Inference [29.520857954199904]
文書レベルの自然言語推論(DOCNLI)は、自然言語処理における新しい課題である。
我々は、Retrieval, Reading and Fusion (R2F)フレームワークと呼ばれる一般的なソリューションと、新しい設定を確立する。
実験結果から,R2Fフレームワークは最先端の性能を得ることができ,多種多様なエビデンス検索手法に対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-10-22T02:02:35Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。