Fugu-MT 論文翻訳(概要): GENEVA: Benchmarking Generalizability for Event Argument Extraction with Hundreds of Event Types and Argument Roles

論文の概要: GENEVA: Benchmarking Generalizability for Event Argument Extraction with Hundreds of Event Types and Argument Roles

arxiv url: http://arxiv.org/abs/2205.12505v5
Date: Thu, 1 Jun 2023 06:14:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-03 02:02:12.384292
Title: GENEVA: Benchmarking Generalizability for Event Argument Extraction with Hundreds of Event Types and Argument Roles
Title（参考訳）: geneva: 数百のイベントタイプと引数ロールによるイベント引数抽出のためのベンチマーク汎用性
Authors: Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng
Abstract要約: Event Argument extract (EAE)は、新しいイベントやドメインに対応するためのモデルの一般化性の改善に重点を置いている。 ACEやEREといった標準的なベンチマークデータセットは、40のイベントタイプと25のエンティティ中心の引数ロールをカバーする。
参考スコア（独自算出の注目度）: 77.05288144035056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent works in Event Argument Extraction (EAE) have focused on improving model generalizability to cater to new events and domains. However, standard benchmarking datasets like ACE and ERE cover less than 40 event types and 25 entity-centric argument roles. Limited diversity and coverage hinder these datasets from adequately evaluating the generalizability of EAE models. In this paper, we first contribute by creating a large and diverse EAE ontology. This ontology is created by transforming FrameNet, a comprehensive semantic role labeling (SRL) dataset for EAE, by exploiting the similarity between these two tasks. Then, exhaustive human expert annotations are collected to build the ontology, concluding with 115 events and 220 argument roles, with a significant portion of roles not being entities. We utilize this ontology to further introduce GENEVA, a diverse generalizability benchmarking dataset comprising four test suites, aimed at evaluating models' ability to handle limited data and unseen event type generalization. We benchmark six EAE models from various families. The results show that owing to non-entity argument roles, even the best-performing model can only achieve 39% F1 score, indicating how GENEVA provides new challenges for generalization in EAE. Overall, our large and diverse EAE ontology can aid in creating more comprehensive future resources, while GENEVA is a challenging benchmarking dataset encouraging further research for improving generalizability in EAE. The code and data can be found at https://github.com/PlusLabNLP/GENEVA.
Abstract（参考訳）: イベント引数抽出(EAE)の最近の研究は、新しいイベントやドメインに対応するためのモデル一般化性の改善に焦点を当てている。しかし、ACEやEREのような標準的なベンチマークデータセットは、40のイベントタイプと25のエンティティ中心の引数ロールをカバーする。限られた多様性とカバレッジは、これらのデータセットがEAEモデルの一般化可能性を適切に評価することを妨げる。本稿では,EAEオントロジーを大規模かつ多種多様なものにすることで貢献する。このオントロジーは、これら2つのタスク間の類似性を利用して、EAEのための包括的なセマンティックロールラベル(SRL)データセットであるFrameNetを変換することによって作成される。次に、徹底した人間専門家のアノテーションを収集してオントロジーを構築し、115のイベントと220の引数の役割を結論付け、その役割の大部分はエンティティではない。このオントロジを利用して,4つのテストスイートからなる多種多様な汎用性ベンチマークデータセットであるgenevaをさらに紹介する。各種のEAEモデルを6種類ベンチマークする。その結果,非エンタテイメントの議論の役割から,最高の評価モデルであっても39%のF1スコアしか達成できないことが判明した。全体として、我々の大規模で多様なEAEオントロジーは、より包括的な将来的なリソースを作成するのに役立つ一方、GENEVAは、EAEの一般化性を改善するためのさらなる研究を奨励する、挑戦的なベンチマークデータセットである。コードとデータはhttps://github.com/PlusLabNLP/GENEVAで確認できる。

関連論文リスト

GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI [52.13138825802668]
GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。 GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。 GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
論文参考訳（メタデータ） (2025-11-19T17:45:02Z)
GLiDRE: Generalist Lightweight model for Document-level Relation Extraction [0.5130175508025212]
本稿では,文書レベルの関係抽出のための新しいモデルであるGLiDREを紹介する。我々は、Re-DocREDデータセット上のさまざまなデータ設定における最先端モデルに対してGLiDREをベンチマークする。以上の結果から,GLiDREは数ショットのシナリオで最先端のパフォーマンスを実現していることがわかった。
論文参考訳（メタデータ） (2025-08-01T16:33:13Z)
TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data [9.390415313514762]
TARGAは、手動のアノテーションなしで高関連性合成データを生成するフレームワークである。これは、クローズソースモデルを使用する既存の非微調整手法よりも大幅に優れている。非I.I.D.設定下では、優れたサンプル効率、堅牢性、一般化能力を示す。
論文参考訳（メタデータ） (2024-12-27T09:16:39Z)
Diversity Over Quantity: A Lesson From Few Shot Relation Classification [62.66895901654023]
多様な関係の集合に対するトレーニングは、モデルが目に見えない関係を一般化する能力を大幅に向上させることを示す。我々は、既存のデータセットよりも桁違いに多くの関係型を組み込んだ新しいFSRCベンチマークであるREBEL-FSを紹介する。
論文参考訳（メタデータ） (2024-12-06T21:41:01Z)
A Structure-aware Generative Model for Biomedical Event Extraction [6.282854894433099]
GenBEEという名前のイベント構造を意識した生成モデルは、バイオメディカルテキストで複雑なイベント構造をキャプチャできる。我々は3つのバイオメディカルイベント抽出ベンチマークを用いて提案したGenBEEモデルを評価した。
論文参考訳（メタデータ） (2024-08-13T02:43:19Z)
UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文参考訳（メタデータ） (2024-06-27T07:56:44Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
MAVEN-Arg: Completing the Puzzle of All-in-One Event Understanding Dataset with Event Argument Annotation [104.6065882758648]
MAVEN-Argは、イベント検出、イベント引数抽出、イベント関係抽出をサポートする最初のオールインワンデータセットである。 EAEベンチマークでは、(1)162のイベントタイプと612の引数ロールをカバーする包括的なスキーマ、(2)98,591のイベントと290,613の引数を含む大規模なデータスケール、(3)EAEのすべてのタスク変種をサポートする包括的なアノテーションの3つの利点がある。
論文参考訳（メタデータ） (2023-11-15T16:52:14Z)
AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model [38.390078345679214]
イベント引数抽出(EAE)は、あるイベントに対するイベント引数とその特定の役割を特定する。世代ベースAEモデルの最近の進歩は、分類ベースモデルよりも優れた性能と一般化性を示している。生成モデルのすべての層に対してAMR対応プレフィックスを生成するAMPEREを提案する。
論文参考訳（メタデータ） (2023-05-26T08:38:25Z)
Novel Human-Object Interaction Detection via Adversarial Domain Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文参考訳（メタデータ） (2020-05-22T22:02:56Z)
Rethinking Generalization of Neural Models: A Named Entity Recognition Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文参考訳（メタデータ） (2020-01-12T04:33:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。