論文の概要: MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous
Informal Texts
- arxiv url: http://arxiv.org/abs/2211.13896v1
- Date: Fri, 25 Nov 2022 05:05:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:20:07.542836
- Title: MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous
Informal Texts
- Title(参考訳): MUSIED:マルチソース不均一なインフォーマルテキストからのイベント検出ベンチマーク
- Authors: Xiangyu Xi, Jianwei Lv, Shuaipeng Liu, Wei Ye, Fan Yang and Guanglu
Wan
- Abstract要約: イベント検出(ED)は、構造化されていないテキストからイベントトリガーを特定し、分類する。
本稿では,ユーザレビュー,テキスト会話,電話会話に基づく,中国の大規模イベント検出データセットを提案する。
- 参考スコア(独自算出の注目度): 7.43647091073357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event detection (ED) identifies and classifies event triggers from
unstructured texts, serving as a fundamental task for information extraction.
Despite the remarkable progress achieved in the past several years, most
research efforts focus on detecting events from formal texts (e.g., news
articles, Wikipedia documents, financial announcements). Moreover, the texts in
each dataset are either from a single source or multiple yet relatively
homogeneous sources. With massive amounts of user-generated text accumulating
on the Web and inside enterprises, identifying meaningful events in these
informal texts, usually from multiple heterogeneous sources, has become a
problem of significant practical value. As a pioneering exploration that
expands event detection to the scenarios involving informal and heterogeneous
texts, we propose a new large-scale Chinese event detection dataset based on
user reviews, text conversations, and phone conversations in a leading
e-commerce platform for food service. We carefully investigate the proposed
dataset's textual informality and multi-source heterogeneity characteristics by
inspecting data samples quantitatively and qualitatively. Extensive experiments
with state-of-the-art event detection methods verify the unique challenges
posed by these characteristics, indicating that multi-source informal event
detection remains an open problem and requires further efforts. Our benchmark
and code are released at \url{https://github.com/myeclipse/MUSIED}.
- Abstract(参考訳): イベント検出(ED)は、構造化されていないテキストからイベントトリガーを特定し、分類する。
過去数年間の著しい進歩にもかかわらず、ほとんどの研究は、正式なテキスト(例えば、ニュース記事、wikipedia文書、財務発表)からイベントを検出することに焦点を当てている。
さらに、各データセットのテキストは、単一のソースまたは複数の比較的均質なソースから作成されている。
ウェブや企業内で大量のユーザ生成テキストが蓄積される中、通常複数の異種ソースから、これらの非公式テキストで意味のある出来事を特定することは、重要な実用価値の問題となっている。
インフォーマルテキストやヘテロジニアステキストを含むシナリオにイベント検出を展開する先駆的な調査として,食品サービスのための主要なeコマースプラットフォームにおいて,ユーザレビュー,テキスト会話,電話会話に基づく,新たな大規模中国イベント検出データセットを提案する。
提案するデータセットのテキストの非公式性とマルチソースの不均一性特性を定量的に定性的に検証することにより慎重に検討する。
最先端のイベント検出手法による大規模な実験は、これらの特徴によって引き起こされるユニークな課題を検証し、複数ソースの非公式なイベント検出が未解決の問題であり、さらなる努力が必要であることを示す。
ベンチマークとコードは \url{https://github.com/myeclipse/MUSIED} で公開されている。
関連論文リスト
- Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - EnrichEvent: Enriching Social Data with Contextual Information for
Emerging Event Extraction [5.795017262737487]
本稿では,ストリーミングソーシャルデータの言語的および文脈的表現を活用する新しいフレームワークであるEnrichEventを提案する。
提案するフレームワークは,イベントの時間的変化を示すために,各イベントのクラスタチェーンを生成する。
論文 参考訳(メタデータ) (2023-07-29T21:37:55Z) - Deepfake Text Detection in the Wild [51.07597090941853]
近年の大規模言語モデルの発展により、人間のものと同等のレベルのテキスト生成が可能になった。
これらのモデルは、ニュース記事の執筆、ストーリー生成、科学的な執筆など、幅広いコンテンツにまたがる強力な能力を示している。
このような機能は、人間によるテキストと機械によるテキストのギャップをさらに狭め、ディープフェイクテキスト検出の重要性を強調している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Boosting Event Extraction with Denoised Structure-to-Text Augmentation [52.21703002404442]
イベント抽出は、テキストから事前に定義されたイベントトリガと引数を認識することを目的としている。
最近のデータ拡張手法は文法的誤りの問題を無視することが多い。
本稿では,イベント抽出DAEEのための記述構造からテキストへの拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-16T16:52:07Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - COfEE: A Comprehensive Ontology for Event Extraction from text, with an
online annotation tool [3.8995911009078816]
イベント抽出(EE)は、特定のインシデントとそのアクターに関する情報をテキストから導き出そうとする。
EEは知識ベースの構築、情報検索、要約、オンライン監視システムなど、多くの領域で有用である。
COfEEは、環境問題、サイバースペース、犯罪活動、自然災害に関連する新しいカテゴリを含む2つの階層レベル(イベントタイプとイベントサブタイプ)から構成されている。
論文 参考訳(メタデータ) (2021-07-21T19:43:22Z) - Detecting Ongoing Events Using Contextual Word and Sentence Embeddings [110.83289076967895]
本稿では,OED(Ongoing Event Detection)タスクを紹介する。
目的は、歴史、未来、仮説、あるいは新しいものでも現在のものでもない他の形式や出来事に対してのみ、進行中のイベントの言及を検出することである。
構造化されていないテキストから進行中のイベントに関する構造化情報を抽出する必要があるアプリケーションは、OEDシステムを利用することができる。
論文 参考訳(メタデータ) (2020-07-02T20:44:05Z) - Complex networks for event detection in heterogeneous high volume news
streams [0.0]
オンラインニュースの量と頻度は、リアルタイムに動作可能な自動イベント検出方法の必要性を高める。
我々は、重要なニュースイベントが常にニュース記事にリンクされた名前付きエンティティを巻き込む、ネットワークベースのアプローチを開発する。
論文 参考訳(メタデータ) (2020-05-28T02:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。