論文の概要: EasyECR: A Library for Easy Implementation and Evaluation of Event Coreference Resolution Models
- arxiv url: http://arxiv.org/abs/2406.14106v1
- Date: Thu, 20 Jun 2024 08:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:40:46.110231
- Title: EasyECR: A Library for Easy Implementation and Evaluation of Event Coreference Resolution Models
- Title(参考訳): EasyECR:イベント参照解決モデルの実装と評価を容易にするライブラリ
- Authors: Yuncong Li, Tianhua Xu, Sheng-hua Zhong, Haiqin Yang,
- Abstract要約: イベント参照解決(ECR)は、同じ現実世界のイベントを参照するイベント参照をクラスタ化するタスクである。
EasyECRは、データ構造を標準化し、ECRパイプラインを抽象化するために設計された、最初のオープンソースライブラリである。
- 参考スコア(独自算出の注目度): 9.773388073690326
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Event Coreference Resolution (ECR) is the task of clustering event mentions that refer to the same real-world event. Despite significant advancements, ECR research faces two main challenges: limited generalizability across domains due to narrow dataset evaluations, and difficulties in comparing models within diverse ECR pipelines. To address these issues, we develop EasyECR, the first open-source library designed to standardize data structures and abstract ECR pipelines for easy implementation and fair evaluation. More specifically, EasyECR integrates seven representative pipelines and ten popular benchmark datasets, enabling model evaluations on various datasets and promoting the development of robust ECR pipelines. By conducting extensive evaluation via our EasyECR, we find that, \lowercase\expandafter{\romannumeral1}) the representative ECR pipelines cannot generalize across multiple datasets, hence evaluating ECR pipelines on multiple datasets is necessary, \lowercase\expandafter{\romannumeral2}) all models in ECR pipelines have a great effect on pipeline performance, therefore, when one model in ECR pipelines are compared, it is essential to ensure that the other models remain consistent. Additionally, reproducing ECR results is not trivial, and the developed library can help reduce this discrepancy. The experimental results provide valuable baselines for future research.
- Abstract(参考訳): イベント参照解決(ECR)は、同じ現実世界のイベントを参照するイベント参照をクラスタ化するタスクである。
大きな進歩にもかかわらず、ECR研究は2つの大きな課題に直面している: データセットの評価が狭いことによるドメイン間の一般化可能性の制限と、多様なECRパイプライン内のモデルを比較することの難しさである。
これらの問題に対処するため,データ構造を標準化し,実装や公正な評価を行うための抽象的なERCパイプラインを設計した,最初のオープンソースライブラリであるEasyECRを開発した。
具体的には、EasyECRは7つの代表パイプラインと10の人気のあるベンチマークデータセットを統合し、さまざまなデータセットのモデル評価を可能にし、堅牢なECRパイプラインの開発を促進する。
EasyECR を用いて広範囲な評価を行うことで、代表的 ECR パイプラインは複数のデータセットをまたがって一般化できないため、複数のデータセット上で ECR パイプラインを評価する必要があること、そして \lowercase\expandafter{\romannumeral2}) すべての ECR パイプラインのモデルがパイプライン性能に大きな影響を与えること、したがって、ECR パイプラインの1つのモデルを比較する場合、他のモデルが一貫性を保つことが不可欠である。
さらに、ESRの結果の再現は簡単ではなく、開発ライブラリはこの相違を減らすのに役立ちます。
実験結果は将来の研究に貴重なベースラインを提供する。
関連論文リスト
- A Thorough Performance Benchmarking on Lightweight Embedding-based Recommender Systems [67.52782366565658]
State-of-the-art recommender system (RS) は、埋め込みベクトルによって符号化される分類的特徴に依存し、結果として非常に大きな埋め込みテーブルとなる。
軽量埋め込み型RSの繁栄にもかかわらず、評価プロトコルには幅広い多様性が見られる。
本研究では, LERSの性能, 効率, クロスタスク転送性について, 徹底的なベンチマークによる検討を行った。
論文 参考訳(メタデータ) (2024-06-25T07:45:00Z) - PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for
End-to-end Document Pair Extraction [29.620120164447737]
ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
本稿では,ライン抽出,ライングルーピング,エンティティリンクという3つの並列サブタスクを組み込んだ,統一パイプラインで文書ペア抽出を行うPEneoについて紹介する。
論文 参考訳(メタデータ) (2024-01-07T12:48:07Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Data Roaming and Quality Assessment for Composed Image Retrieval [25.452015862927766]
Composed Image Retrieval (CoIR)は、画像とテキストのモダリティを組み合わせたクエリで、ユーザがより効果的にインテントを表現できるようにする。
我々は,既存のものより10倍大きい新しいCoIRデータセットであるLaSCoデータセットを紹介する。
また、新しいCoIRベースラインであるCASE(Cross-Attention driven Shift)も導入する。
論文 参考訳(メタデータ) (2023-03-16T16:02:24Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Sound Event Classification in an Industrial Environment: Pipe Leakage
Detection Use Case [3.9414768019101682]
産業環境におけるパイプ漏れ検出のための多段階機械学習パイプラインを提案する。
提案されたパイプラインは複数のステップを適用し、それぞれが環境の課題に対処する。
その結果, 精度99%, F1スコア0.93, 0.9の優れた結果が得られた。
論文 参考訳(メタデータ) (2022-05-05T15:26:22Z) - On Continual Model Refinement in Out-of-Distribution Data Streams [64.62569873799096]
現実世界の自然言語処理(NLP)モデルは、アウト・オブ・ディストリビューション(OOD)データストリームの予測エラーを修正するために、継続的に更新する必要がある。
既存の継続学習(CL)問題設定は、そのような現実的で複雑なシナリオをカバーできない。
連続モデル改良(CMR)と呼ばれる新しいCL問題定式化を提案する。
論文 参考訳(メタデータ) (2022-05-04T11:54:44Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。