論文の概要: MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous
Informal Texts
- arxiv url: http://arxiv.org/abs/2211.13896v1
- Date: Fri, 25 Nov 2022 05:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:20:07.542836
- Title: MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous
Informal Texts
- Title(参考訳): MUSIED:マルチソース不均一なインフォーマルテキストからのイベント検出ベンチマーク
- Authors: Xiangyu Xi, Jianwei Lv, Shuaipeng Liu, Wei Ye, Fan Yang and Guanglu
Wan
- Abstract要約: イベント検出(ED)は、構造化されていないテキストからイベントトリガーを特定し、分類する。
本稿では,ユーザレビュー,テキスト会話,電話会話に基づく,中国の大規模イベント検出データセットを提案する。
- 参考スコア(独自算出の注目度): 7.43647091073357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event detection (ED) identifies and classifies event triggers from
unstructured texts, serving as a fundamental task for information extraction.
Despite the remarkable progress achieved in the past several years, most
research efforts focus on detecting events from formal texts (e.g., news
articles, Wikipedia documents, financial announcements). Moreover, the texts in
each dataset are either from a single source or multiple yet relatively
homogeneous sources. With massive amounts of user-generated text accumulating
on the Web and inside enterprises, identifying meaningful events in these
informal texts, usually from multiple heterogeneous sources, has become a
problem of significant practical value. As a pioneering exploration that
expands event detection to the scenarios involving informal and heterogeneous
texts, we propose a new large-scale Chinese event detection dataset based on
user reviews, text conversations, and phone conversations in a leading
e-commerce platform for food service. We carefully investigate the proposed
dataset's textual informality and multi-source heterogeneity characteristics by
inspecting data samples quantitatively and qualitatively. Extensive experiments
with state-of-the-art event detection methods verify the unique challenges
posed by these characteristics, indicating that multi-source informal event
detection remains an open problem and requires further efforts. Our benchmark
and code are released at \url{https://github.com/myeclipse/MUSIED}.
- Abstract(参考訳): イベント検出(ED)は、構造化されていないテキストからイベントトリガーを特定し、分類する。
過去数年間の著しい進歩にもかかわらず、ほとんどの研究は、正式なテキスト(例えば、ニュース記事、wikipedia文書、財務発表)からイベントを検出することに焦点を当てている。
さらに、各データセットのテキストは、単一のソースまたは複数の比較的均質なソースから作成されている。
ウェブや企業内で大量のユーザ生成テキストが蓄積される中、通常複数の異種ソースから、これらの非公式テキストで意味のある出来事を特定することは、重要な実用価値の問題となっている。
インフォーマルテキストやヘテロジニアステキストを含むシナリオにイベント検出を展開する先駆的な調査として,食品サービスのための主要なeコマースプラットフォームにおいて,ユーザレビュー,テキスト会話,電話会話に基づく,新たな大規模中国イベント検出データセットを提案する。
提案するデータセットのテキストの非公式性とマルチソースの不均一性特性を定量的に定性的に検証することにより慎重に検討する。
最先端のイベント検出手法による大規模な実験は、これらの特徴によって引き起こされるユニークな課題を検証し、複数ソースの非公式なイベント検出が未解決の問題であり、さらなる努力が必要であることを示す。
ベンチマークとコードは \url{https://github.com/myeclipse/MUSIED} で公開されている。
関連論文リスト
- Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - COfEE: A Comprehensive Ontology for Event Extraction from text, with an
online annotation tool [3.8995911009078816]
イベント抽出(EE)は、特定のインシデントとそのアクターに関する情報をテキストから導き出そうとする。
EEは知識ベースの構築、情報検索、要約、オンライン監視システムなど、多くの領域で有用である。
COfEEは、環境問題、サイバースペース、犯罪活動、自然災害に関連する新しいカテゴリを含む2つの階層レベル(イベントタイプとイベントサブタイプ)から構成されている。
論文 参考訳(メタデータ) (2021-07-21T19:43:22Z) - Detecting Ongoing Events Using Contextual Word and Sentence Embeddings [110.83289076967895]
本稿では,OED(Ongoing Event Detection)タスクを紹介する。
目的は、歴史、未来、仮説、あるいは新しいものでも現在のものでもない他の形式や出来事に対してのみ、進行中のイベントの言及を検出することである。
構造化されていないテキストから進行中のイベントに関する構造化情報を抽出する必要があるアプリケーションは、OEDシステムを利用することができる。
論文 参考訳(メタデータ) (2020-07-02T20:44:05Z) - Complex networks for event detection in heterogeneous high volume news
streams [0.0]
オンラインニュースの量と頻度は、リアルタイムに動作可能な自動イベント検出方法の必要性を高める。
我々は、重要なニュースイベントが常にニュース記事にリンクされた名前付きエンティティを巻き込む、ネットワークベースのアプローチを開発する。
論文 参考訳(メタデータ) (2020-05-28T02:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。