論文の概要: BenchIE: Open Information Extraction Evaluation Based on Facts, Not
Tokens
- arxiv url: http://arxiv.org/abs/2109.06850v1
- Date: Tue, 14 Sep 2021 17:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:55:55.437326
- Title: BenchIE: Open Information Extraction Evaluation Based on Facts, Not
Tokens
- Title(参考訳): BenchIE: トークンではなく、ファクトに基づいたオープン情報抽出評価
- Authors: Kiril Gashteovski, Mingying Yu, Bhushan Kotnis, Carolin Lawrence,
Goran Glavas, Mathias Niepert
- Abstract要約: OIEシステムの本質的な評価は手作業で行われ、人間の評価者は抽出の正しさを判断する。
既存のOIEベンチマークには、同じ事実の許容できるすべてのバリエーションが含まれていないため、モデルの性能を信頼できない評価に繋がる。
我々は、英語、中国語、ドイツ語のOIEシステムの総合評価のためのベンチマークおよび評価フレームワークであるBenchIEを紹介する。
- 参考スコア(独自算出の注目度): 32.57336782092527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic evaluations of OIE systems are carried out either manually -- with
human evaluators judging the correctness of extractions -- or automatically, on
standardized benchmarks. The latter, while much more cost-effective, is less
reliable, primarily because of the incompleteness of the existing OIE
benchmarks: the ground truth extractions do not include all acceptable variants
of the same fact, leading to unreliable assessment of models' performance.
Moreover, the existing OIE benchmarks are available for English only. In this
work, we introduce BenchIE: a benchmark and evaluation framework for
comprehensive evaluation of OIE systems for English, Chinese and German. In
contrast to existing OIE benchmarks, BenchIE takes into account informational
equivalence of extractions: our gold standard consists of fact synsets,
clusters in which we exhaustively list all surface forms of the same fact. We
benchmark several state-of-the-art OIE systems using BenchIE and demonstrate
that these systems are significantly less effective than indicated by existing
OIE benchmarks. We make BenchIE (data and evaluation code) publicly available.
- Abstract(参考訳): OIEシステムの本質的な評価は、人間の評価者が抽出の正しさを判断して手動で行うか、標準化されたベンチマークで自動的に行う。
後者はコスト効率がはるかに高いが、既存のoieベンチマークが不完全であるため信頼性が低く、根拠となる真理抽出は、同じ事実の許容できる全ての変種を含んでいないため、モデルのパフォーマンスの信頼性が低下する。
さらに、既存のoieベンチマークは英語のみで利用できる。
本稿では,英語,中国語,ドイツ語のOIEシステムの総合評価のためのベンチマークおよび評価フレームワークであるBenchIEを紹介する。
既存のOIEベンチマークとは対照的に、BenchIEは抽出の情報の等価性を考慮に入れています。
我々はBenchIEを用いたいくつかの最先端OIEシステムをベンチマークし、これらのシステムは既存のOIEベンチマークで示されるよりもはるかに効果が低いことを示した。
BenchIE(データおよび評価コード)を公開しています。
関連論文リスト
- BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - $\textit{BenchIE}^{FL}$ : A Manually Re-Annotated Fact-Based Open Information Extraction Benchmark [8.3354390091931]
$textitBenchIEFL$は新しいOIEベンチマークで、BenchIEの原則を完全に適用している。
$textitBenchIEFL$は、OIE抽出器の実際のパフォーマンスについて、洞察に富んだ結論を導き出すことができる。
論文 参考訳(メタデータ) (2024-07-23T22:04:04Z) - Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench [15.565644819269803]
過度に見落とされた方法論的選択がベンチマークコンセンサステスト(BAT)の結果にどのように影響するかを示す。
我々は、BAT用のピソンパッケージであるBenchBenchを紹介し、ベンチマークを仲間を使って評価するためのメタベンチマークであるBenchBench- Leaderboardをリリースする。
論文 参考訳(メタデータ) (2024-07-18T17:00:23Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - AnnIE: An Annotation Platform for Constructing Complete Open Information
Extraction Benchmark [11.344977846840747]
オープン情報抽出(OIE)は、関係の形で文から事実を抽出し、それに対応する議論をスキーマフリーで行うタスクである。
OIEシステムの性能をより現実的に測定するには、入力文から完全な事実を手動で注釈付けする必要がある。
本稿では,このような難易度の高いアノテーションタスクを支援する対話型アノテーションプラットフォームAnnIEを提案する。
論文 参考訳(メタデータ) (2021-09-15T17:57:30Z) - AIBench: An Agile Domain-specific Benchmarking Methodology and an AI
Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。
我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。
最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文 参考訳(メタデータ) (2020-02-17T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。