論文の概要: WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning
- arxiv url: http://arxiv.org/abs/2212.10057v2
- Date: Sat, 27 May 2023 13:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 02:35:06.507720
- Title: WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning
- Title(参考訳): wecheck: 弱い教師付き学習による強力な事実整合性チェッカー
- Authors: Wenhao Wu, Wei Li, Xinyan Xiao, Jiachen Liu, Sujian Li, Yajuan Lv
- Abstract要約: 本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
- 参考スコア(独自算出の注目度): 40.5830891229718
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A crucial issue of current text generation models is that they often
uncontrollably generate factually inconsistent text with respective of their
inputs. Limited by the lack of annotated data, existing works in evaluating
factual consistency directly transfer the reasoning ability of models trained
on other data-rich upstream tasks like question answering (QA) and natural
language inference (NLI) without any further adaptation. As a result, they
perform poorly on the real generated text and are biased heavily by their
single-source upstream tasks. To alleviate this problem, we propose a weakly
supervised framework that aggregates multiple resources to train a precise and
efficient factual metric, namely WeCheck. WeCheck first utilizes a generative
model to accurately label a real generated sample by aggregating its weak
labels, which are inferred from multiple resources. Then, we train the target
metric model with the weak supervision while taking noises into consideration.
Comprehensive experiments on a variety of tasks demonstrate the strong
performance of WeCheck, which achieves a 3.4\% absolute improvement over
previous state-of-the-art methods on TRUE benchmark on average.
- Abstract(参考訳): 現在のテキスト生成モデルにおいて重要な問題は、しばしば各入力で現実的に一貫性のないテキストを生成することである。
注釈付きデータの欠如によって制限された既存の研究は、質問応答(QA)や自然言語推論(NLI)といった他のデータ豊富な上流タスクで訓練されたモデルの推論能力を直接的に伝達する。
その結果、実際の生成されたテキストではパフォーマンスが悪く、単一ソースの上流タスクに大きく偏っている。
この問題を軽減するために、複数のリソースを集約して正確な実測値、すなわちWeCheckを訓練する弱い教師付きフレームワークを提案する。
WeCheckはまず生成モデルを用いて、複数のリソースから推測される弱いラベルを集約することで、実際のサンプルを正確にラベル付けする。
そして、ノイズを考慮しながら、弱い監督の下でターゲットのメトリックモデルをトレーニングします。
様々なタスクに関する総合的な実験はWeCheckの強力な性能を示し、TRUEベンチマークにおける従来の最先端手法よりも3.4倍の絶対的な改善を実現している。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - FAST: Improving Controllability for Text Generation with Feedback Aware
Self-Training [25.75982440355576]
制御可能なテキスト生成システムは、しばしば制御コードを利用して、スタイルや長さといった出力の様々な特性を指示する。
NLPの因果推論に関する最近の研究に触発された本論文は、これらの制御符号に基づく条件付きテキスト生成アルゴリズムにおいて、これまで見過ごされていた欠陥を明らかにする。
トレーニングセットにおけるこれらの相関を減少させるための2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-10-06T19:00:51Z) - Falsesum: Generating Document-level NLI Examples for Recognizing Factual
Inconsistency in Summarization [63.21819285337555]
高品質なタスク指向の例でトレーニングデータを拡張した場合,NLIモデルがこのタスクに有効であることを示す。
我々は、制御可能なテキスト生成モデルを利用して、人間の注釈付き要約を摂動させるデータ生成パイプラインであるFalsesumを紹介した。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルにより,4つのベンチマークを用いて,要約における事実整合性を検出することにより,最先端のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-05-12T10:43:42Z) - Masked Summarization to Generate Factually Inconsistent Summaries for
Improved Factual Consistency Checking [28.66287193703365]
本稿では,キー情報を隠蔽したソーステキストと参照要約を用いて,現実的に一貫性のない要約を生成することを提案する。
7つのベンチマークデータセットを用いた実験により,提案手法を用いて生成した要約に基づいて訓練された実例整合性分類器が既存モデルを上回っていることが示された。
論文 参考訳(メタデータ) (2022-05-04T12:48:49Z) - NLI Data Sanity Check: Assessing the Effect of Data Corruption on Model
Performance [3.7024660695776066]
データセットがモデルの意味理解能力を評価するための良いテストベッドを構成するかどうかを評価することができる新しい診断テストスイートを提案します。
特に,広く使用されているベンチマーク(mnliおよびanli)に制御された腐敗変換を適用する。
モデル精度の大幅な低下は、元のデータセットがモデルの推論能力に適切な挑戦を提供することを示している。
論文 参考訳(メタデータ) (2021-04-10T12:28:07Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。