論文の概要: FactKB: Generalizable Factuality Evaluation using Language Models
Enhanced with Factual Knowledge
- arxiv url: http://arxiv.org/abs/2305.08281v1
- Date: Sun, 14 May 2023 23:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 16:39:04.831299
- Title: FactKB: Generalizable Factuality Evaluation using Language Models
Enhanced with Factual Knowledge
- Title(参考訳): FactKB: ファクト知識で強化された言語モデルを用いた一般化可能なファクチュアリティ評価
- Authors: Shangbin Feng, Vidhisha Balachandran, Yuyang Bai, Yulia Tsvetkov
- Abstract要約: 本稿では,ドメイン間で一般化可能なファクトリティー評価手法であるFactKBを提案する。
本稿では, 直接実体事実に基づく補完的事実事前学習の目的, 実体に関する補助的知識に基づく事実, 知識ベースウォークを通じて構成的に構築された事実の3つの種類を紹介する。
結果の事実性評価モデルは、2つのドメイン内ニュース要約ベンチマークと3つのドメイン外科学文献データセットに対して、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 26.808257241548272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the factual consistency of automatically generated summaries is
essential for the progress and adoption of reliable summarization systems.
Despite recent advances, existing factuality evaluation models are not robust,
being especially prone to entity and relation errors in new domains. We propose
FactKB, a simple new approach to factuality evaluation that is generalizable
across domains, in particular with respect to entities and relations. FactKB is
based on language models pretrained using facts extracted from external
knowledge bases. We introduce three types of complementary factuality
pretraining objectives based on direct entity facts, facts grounded in
auxiliary knowledge about entities, and facts constructed compositionally
through knowledge base walks. The resulting factuality evaluation model
achieves state-of-the-art performance on two in-domain news summarization
benchmarks as well as on three out-of-domain scientific literature datasets.
Further analysis of FactKB shows improved ability to detect erroneous entities
and relations in summaries and is robust and generalizable across domains.
- Abstract(参考訳): 自動生成された要約の事実整合性を評価することは、信頼できる要約システムの進展と導入に不可欠である。
近年の進歩にもかかわらず、既存の事実性評価モデルは頑健ではなく、特に新しいドメインにおけるエンティティと関係エラーの傾向が強い。
我々はfactkbを提案する。factuality evaluationに対する単純な新しいアプローチで、特にエンティティやリレーションに関して、ドメイン間で一般化できる。
FactKBは、外部知識ベースから抽出された事実を用いて事前訓練された言語モデルに基づいている。
本稿では,直接実体事実に基づく相補的事実学習目標,実体に関する補助知識に基づく事実,知識ベースウォークによる構成的事実の3種類の相補的事実学習目標について紹介する。
結果の事実性評価モデルは、2つのドメイン内ニュース要約ベンチマークと3つのドメイン外科学文献データセットに対して、最先端のパフォーマンスを達成する。
FactKBのさらなる分析は、要約における誤った実体や関係を検出する能力が改善され、ドメイン間で堅牢で一般化可能であることを示している。
関連論文リスト
- ZeFaV: Boosting Large Language Models for Zero-shot Fact Verification [2.6874004806796523]
ZeFaVはゼロショットベースのファクトチェック検証フレームワークで、大規模な言語モデルのファクト検証タスクのパフォーマンスを向上させる。
我々は,HoVerとFEVEROUSを含む2つのマルチホップファクトチェックデータセットに対するアプローチを実証実験により評価した。
論文 参考訳(メタデータ) (2024-11-18T02:35:15Z) - Entity-level Factual Adaptiveness of Fine-tuning based Abstractive
Summarization Models [31.84120883461332]
我々は、微調整に基づく要約モデルの頑健さと知識衝突を解析する。
本稿では,制御可能な対実データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T07:53:39Z) - Deep Outdated Fact Detection in Knowledge Graphs [13.711099395945988]
本稿では,知識グラフ(KG)内の古い事実を識別するために設計された,新しいディープラーニングベースのフレームワークであるDEANを提案する。
DEANは、実体と関係の包括的モデリングを通じて、事実間の暗黙的な構造情報をキャプチャすることで、自分自身を区別する。
実験により, 最先端のベースライン法に対するDEANの有効性と優位性を示した。
論文 参考訳(メタデータ) (2024-02-06T05:58:15Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Contextualization and Generalization in Entity and Relation Extraction [0.0]
本研究では、訓練中に見えない事実への一般化に関する最先端モデルの振る舞いについて検討する。
従来のベンチマークは、トレーニングとモデル評価に使用される言及と関係の間に重要な語彙的重複を示す。
本稿では,トレーニングセットと重複する言及と関連性に基づいて,パフォーマンスを分離するための実証的研究を提案する。
論文 参考訳(メタデータ) (2022-06-15T14:16:42Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Enhancing Factual Consistency of Abstractive Summarization [57.67609672082137]
ファクトアウェアな要約モデル FASum を提案し,実情関係を抽出し,要約生成プロセスに統合する。
次に,既存のシステムから生成した要約から事実誤りを自動的に補正する事実補正モデルFCを設計する。
論文 参考訳(メタデータ) (2020-03-19T07:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。