Fugu-MT 論文翻訳(概要): BenchIE: Open Information Extraction Evaluation Based on Facts, Not Tokens

論文の概要: BenchIE: Open Information Extraction Evaluation Based on Facts, Not Tokens

arxiv url: http://arxiv.org/abs/2109.06850v1
Date: Tue, 14 Sep 2021 17:43:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-15 15:55:55.437326
Title: BenchIE: Open Information Extraction Evaluation Based on Facts, Not Tokens
Title（参考訳）: BenchIE: トークンではなく、ファクトに基づいたオープン情報抽出評価
Authors: Kiril Gashteovski, Mingying Yu, Bhushan Kotnis, Carolin Lawrence, Goran Glavas, Mathias Niepert
Abstract要約: OIEシステムの本質的な評価は手作業で行われ、人間の評価者は抽出の正しさを判断する。既存のOIEベンチマークには、同じ事実の許容できるすべてのバリエーションが含まれていないため、モデルの性能を信頼できない評価に繋がる。我々は、英語、中国語、ドイツ語のOIEシステムの総合評価のためのベンチマークおよび評価フレームワークであるBenchIEを紹介する。
参考スコア（独自算出の注目度）: 32.57336782092527
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Intrinsic evaluations of OIE systems are carried out either manually -- with human evaluators judging the correctness of extractions -- or automatically, on standardized benchmarks. The latter, while much more cost-effective, is less reliable, primarily because of the incompleteness of the existing OIE benchmarks: the ground truth extractions do not include all acceptable variants of the same fact, leading to unreliable assessment of models' performance. Moreover, the existing OIE benchmarks are available for English only. In this work, we introduce BenchIE: a benchmark and evaluation framework for comprehensive evaluation of OIE systems for English, Chinese and German. In contrast to existing OIE benchmarks, BenchIE takes into account informational equivalence of extractions: our gold standard consists of fact synsets, clusters in which we exhaustively list all surface forms of the same fact. We benchmark several state-of-the-art OIE systems using BenchIE and demonstrate that these systems are significantly less effective than indicated by existing OIE benchmarks. We make BenchIE (data and evaluation code) publicly available.
Abstract（参考訳）: OIEシステムの本質的な評価は、人間の評価者が抽出の正しさを判断して手動で行うか、標準化されたベンチマークで自動的に行う。後者はコスト効率がはるかに高いが、既存のoieベンチマークが不完全であるため信頼性が低く、根拠となる真理抽出は、同じ事実の許容できる全ての変種を含んでいないため、モデルのパフォーマンスの信頼性が低下する。さらに、既存のoieベンチマークは英語のみで利用できる。本稿では,英語,中国語,ドイツ語のOIEシステムの総合評価のためのベンチマークおよび評価フレームワークであるBenchIEを紹介する。既存のOIEベンチマークとは対照的に、BenchIEは抽出の情報の等価性を考慮に入れています。我々はBenchIEを用いたいくつかの最先端OIEシステムをベンチマークし、これらのシステムは既存のOIEベンチマークで示されるよりもはるかに効果が低いことを示した。 BenchIE(データおよび評価コード)を公開しています。

関連論文リスト

Pitfalls of Evaluating Language Models with Open Benchmarks [5.387340038770958]
本研究では,公的なテストセット上での不正行為のモデルを体系的に構築することで,これらの弱点を明らかにする。オープンベンチマークにおける高いリーダボードのパフォーマンスは、必ずしも実際の効果を反映するとは限らない。現在のベンチマークプラクティスの基本的な再評価は、堅牢で信頼性の高いLMアセスメントを保証するために不可欠である。
論文参考訳（メタデータ） (2025-07-01T06:17:48Z)
VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models [55.39064621869925]
OpenAI o1とDeepSeek-R1は、推論の領域で素晴らしいパフォーマンスを達成した。彼らのトレーニングの重要な要素は、強化学習に検証可能な報酬を取り入れることである。既存の報酬ベンチマークでは、参照ベースの報酬システムの評価は行われていない。
論文参考訳（メタデータ） (2025-05-21T17:54:43Z)
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文参考訳（メタデータ） (2025-04-11T19:49:22Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文参考訳（メタデータ） (2024-11-20T02:38:24Z)
$\textit{BenchIE}^{FL}$ : A Manually Re-Annotated Fact-Based Open Information Extraction Benchmark [8.3354390091931]
$textitBenchIEFL$は新しいOIEベンチマークで、BenchIEの原則を完全に適用している。 $textitBenchIEFL$は、OIE抽出器の実際のパフォーマンスについて、洞察に富んだ結論を導き出すことができる。
論文参考訳（メタデータ） (2024-07-23T22:04:04Z)
Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench [15.565644819269803]
過度に見落とされた方法論的選択がベンチマークコンセンサステスト(BAT)の結果にどのように影響するかを示す。我々は、BAT用のピソンパッケージであるBenchBenchを紹介し、ベンチマークを仲間を使って評価するためのメタベンチマークであるBenchBench- Leaderboardをリリースする。
論文参考訳（メタデータ） (2024-07-18T17:00:23Z)
ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文参考訳（メタデータ） (2024-06-13T00:59:55Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。 DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。 DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文参考訳（メタデータ） (2023-07-04T01:34:41Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文参考訳（メタデータ） (2021-09-23T13:47:16Z)
AnnIE: An Annotation Platform for Constructing Complete Open Information Extraction Benchmark [11.344977846840747]
オープン情報抽出(OIE)は、関係の形で文から事実を抽出し、それに対応する議論をスキーマフリーで行うタスクである。 OIEシステムの性能をより現実的に測定するには、入力文から完全な事実を手動で注釈付けする必要がある。本稿では,このような難易度の高いアノテーションタスクを支援する対話型アノテーションプラットフォームAnnIEを提案する。
論文参考訳（メタデータ） (2021-09-15T17:57:30Z)
AIBench: An Agile Domain-specific Benchmarking Methodology and an AI Benchmark Suite [26.820244556465333]
本稿では,アジャイルなドメイン固有のベンチマーク手法を提案する。我々は10つの重要なエンドツーエンドアプリケーションシナリオを特定し、そのうち16の代表的なAIタスクをAIコンポーネントベンチマークとして抽出する。最初のエンドツーエンドのインターネットサービスAIベンチマークを提示する。
論文参考訳（メタデータ） (2020-02-17T07:29:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。