論文の概要: Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction
- arxiv url: http://arxiv.org/abs/2305.13981v2
- Date: Tue, 24 Oct 2023 06:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:44:04.641551
- Title: Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction
- Title(参考訳): 知識の不変性を保つ:オープン情報抽出のロバスト性評価の再検討
- Authors: Ji Qi, Chuchun Zhang, Xiaozhi Wang, Kaisheng Zeng, Jifan Yu, Jinxin
Liu, Jiuding Sun, Yuxiang Chen, Lei Hou, Juanzi Li, Bin Xu
- Abstract要約: 実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
- 参考スコア(独自算出の注目度): 50.62245481416744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The robustness to distribution changes ensures that NLP models can be
successfully applied in the realistic world, especially for information
extraction tasks. However, most prior evaluation benchmarks have been devoted
to validating pairwise matching correctness, ignoring the crucial measurement
of robustness. In this paper, we present the first benchmark that simulates the
evaluation of open information extraction models in the real world, where the
syntactic and expressive distributions under the same knowledge meaning may
drift variously. We design and annotate a large-scale testbed in which each
example is a knowledge-invariant clique that consists of sentences with
structured knowledge of the same meaning but with different syntactic and
expressive forms. By further elaborating the robustness metric, a model is
judged to be robust if its performance is consistently accurate on the overall
cliques. We perform experiments on typical models published in the last decade
as well as a popular large language model, the results show that the existing
successful models exhibit a frustrating degradation, with a maximum drop of
23.43 F1 score. Our resources and code are available at
https://github.com/qijimrc/ROBUST.
- Abstract(参考訳): 分布変化に対するロバスト性は、NLPモデルを現実の世界、特に情報抽出タスクにうまく適用できることを保証する。
しかしながら、ほとんどの先行評価ベンチマークは、ロバスト性の重要な測定値を無視して、ペアワイズマッチングの正しさを検証することに費やされてきた。
本稿では,実世界におけるオープン情報抽出モデルの評価をシミュレートした最初のベンチマークを提案する。
それぞれの例が、同じ意味の構造化された知識を持つが、異なる構文と表現形式を持つ文からなる、知識不変のクランクである大規模なテストベッドを設計し、アノテートする。
さらにロバスト性メトリクスを詳述することで、モデルが全体のクランクで一貫して正確である場合、ロバストであると判断される。
我々は過去10年間に発行された典型的なモデルと一般的な大言語モデルの実験を行い、その結果、既存の成功したモデルは、最大で23.43 F1スコアのフラストレーションのある劣化を示した。
私たちのリソースとコードはhttps://github.com/qijimrc/robust.comから入手できます。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Entity-level Factual Adaptiveness of Fine-tuning based Abstractive
Summarization Models [31.84120883461332]
我々は、微調整に基づく要約モデルの頑健さと知識衝突を解析する。
本稿では,制御可能な対実データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T07:53:39Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Syntactically Robust Training on Partially-Observed Data for Open
Information Extraction [25.59133746149343]
オープン情報抽出モデルは十分な監督力を持った有望な結果を示している。
そこで本研究では,統語論的に頑健な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:39:13Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - A Multi-Level Attention Model for Evidence-Based Fact Checking [58.95413968110558]
シーケンス構造をトレーニング可能な,シンプルなモデルを提案する。
Fact extract and VERification のための大規模データセットの結果、我々のモデルはグラフベースのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-02T05:40:12Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。