論文の概要: BenchIE: Open Information Extraction Evaluation Based on Facts, Not
Tokens
- arxiv url: http://arxiv.org/abs/2109.06850v1
- Date: Tue, 14 Sep 2021 17:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:55:55.437326
- Title: BenchIE: Open Information Extraction Evaluation Based on Facts, Not
Tokens
- Title(参考訳): BenchIE: トークンではなく、ファクトに基づいたオープン情報抽出評価
- Authors: Kiril Gashteovski, Mingying Yu, Bhushan Kotnis, Carolin Lawrence,
Goran Glavas, Mathias Niepert
- Abstract要約: OIEシステムの本質的な評価は手作業で行われ、人間の評価者は抽出の正しさを判断する。
既存のOIEベンチマークには、同じ事実の許容できるすべてのバリエーションが含まれていないため、モデルの性能を信頼できない評価に繋がる。
我々は、英語、中国語、ドイツ語のOIEシステムの総合評価のためのベンチマークおよび評価フレームワークであるBenchIEを紹介する。
- 参考スコア(独自算出の注目度): 32.57336782092527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic evaluations of OIE systems are carried out either manually -- with
human evaluators judging the correctness of extractions -- or automatically, on
standardized benchmarks. The latter, while much more cost-effective, is less
reliable, primarily because of the incompleteness of the existing OIE
benchmarks: the ground truth extractions do not include all acceptable variants
of the same fact, leading to unreliable assessment of models' performance.
Moreover, the existing OIE benchmarks are available for English only. In this
work, we introduce BenchIE: a benchmark and evaluation framework for
comprehensive evaluation of OIE systems for English, Chinese and German. In
contrast to existing OIE benchmarks, BenchIE takes into account informational
equivalence of extractions: our gold standard consists of fact synsets,
clusters in which we exhaustively list all surface forms of the same fact. We
benchmark several state-of-the-art OIE systems using BenchIE and demonstrate
that these systems are significantly less effective than indicated by existing
OIE benchmarks. We make BenchIE (data and evaluation code) publicly available.
- Abstract(参考訳): OIEシステムの本質的な評価は、人間の評価者が抽出の正しさを判断して手動で行うか、標準化されたベンチマークで自動的に行う。
後者はコスト効率がはるかに高いが、既存のoieベンチマークが不完全であるため信頼性が低く、根拠となる真理抽出は、同じ事実の許容できる全ての変種を含んでいないため、モデルのパフォーマンスの信頼性が低下する。
さらに、既存のoieベンチマークは英語のみで利用できる。
本稿では,英語,中国語,ドイツ語のOIEシステムの総合評価のためのベンチマークおよび評価フレームワークであるBenchIEを紹介する。
既存のOIEベンチマークとは対照的に、BenchIEは抽出の情報の等価性を考慮に入れています。
我々はBenchIEを用いたいくつかの最先端OIEシステムをベンチマークし、これらのシステムは既存のOIEベンチマークで示されるよりもはるかに効果が低いことを示した。
BenchIE(データおよび評価コード)を公開しています。
関連論文リスト
- Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - Summarization from Leaderboards to Practice: Choosing A Representation
Backbone and Ensuring Robustness [21.567112955050582]
自動評価と人的評価の両方において、BARTはPEGやT5よりも優れている。
システム出力のかなりのばらつきは、人間の評価でのみ捉えられる。
論文 参考訳(メタデータ) (2023-06-18T13:35:41Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - AnnIE: An Annotation Platform for Constructing Complete Open Information
Extraction Benchmark [11.344977846840747]
オープン情報抽出(OIE)は、関係の形で文から事実を抽出し、それに対応する議論をスキーマフリーで行うタスクである。
OIEシステムの性能をより現実的に測定するには、入力文から完全な事実を手動で注釈付けする必要がある。
本稿では,このような難易度の高いアノテーションタスクを支援する対話型アノテーションプラットフォームAnnIEを提案する。
論文 参考訳(メタデータ) (2021-09-15T17:57:30Z) - Shades of BLEU, Flavours of Success: The Case of MultiWOZ [0.0]
本研究では、このデータセットで使用される3つのコーパスベースのメトリクスについて、データ前処理とレポートの不整合を同定する。
我々は,MultiWOZベンチマークのいくつかの問題として,不満足な事前処理,不十分あるいは不明確な評価指標,厳密なデータベースなどを挙げている。
将来のシステムの比較を容易にするために,スタンドアローンで標準化された評価スクリプトをリリースする。
論文 参考訳(メタデータ) (2021-06-10T07:33:53Z) - ESBM: An Entity Summarization BenchMark [20.293900908253544]
私たちはEntity Summarization BenchMark(ESBM)を作成し、既存のベンチマークの制限を克服し、ベンチマークの標準的なデシラタを満たします。
これらのシステムはすべて教師なしであるので、参照のための教師付き学習ベースシステムの実装と評価も行う。
論文 参考訳(メタデータ) (2020-03-08T07:12:20Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。