論文の概要: Explicit and Implicit Data Augmentation for Social Event Detection
- arxiv url: http://arxiv.org/abs/2509.04202v1
- Date: Thu, 04 Sep 2025 13:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.172036
- Title: Explicit and Implicit Data Augmentation for Social Event Detection
- Title(参考訳): ソーシャルイベント検出のための明示的・暗黙的なデータ拡張
- Authors: Congbo Ma, Yuxia Wang, Jia Wu, Jian Yang, Jing Du, Zitai Qiu, Qing Li, Hu Wang, Preslav Nakov,
- Abstract要約: 社会的事象の検出には、ソーシャルメディアから重要な出来事を特定し分類することが含まれる。
ソーシャルイベント検出のための拡張フレームワーク(SED-Aug)を提案する。
SED-Augは、明示的なテキストベースと暗黙的な特徴空間拡張を組み合わせて、データの多様性を高め、堅牢性をモデル化する。
- 参考スコア(独自算出の注目度): 61.929049997741735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social event detection involves identifying and categorizing important events from social media, which relies on labeled data, but annotation is costly and labor-intensive. To address this problem, we propose Augmentation framework for Social Event Detection (SED-Aug), a plug-and-play dual augmentation framework, which combines explicit text-based and implicit feature-space augmentation to enhance data diversity and model robustness. The explicit augmentation utilizes large language models to enhance textual information through five diverse generation strategies. For implicit augmentation, we design five novel perturbation techniques that operate in the feature space on structural fused embeddings. These perturbations are crafted to keep the semantic and relational properties of the embeddings and make them more diverse. Specifically, SED-Aug outperforms the best baseline model by approximately 17.67% on the Twitter2012 dataset and by about 15.57% on the Twitter2018 dataset in terms of the average F1 score. The code is available at GitHub: https://github.com/congboma/SED-Aug.
- Abstract(参考訳): ソーシャルイベント検出は、ラベル付きデータに依存するソーシャルメディアから重要なイベントを特定し分類するが、アノテーションはコストが高く、労働集約的である。
この問題に対処するため,データ多様性とモデルロバスト性を高めるために,明示的なテキストベースと暗黙的な特徴空間拡張を組み合わせた,プラグアンドプレイのデュアル拡張フレームワークであるソーシャルイベント検出のための拡張フレームワーク(SED-Aug)を提案する。
明示的な拡張は、大きな言語モデルを使用して、5つの多様な生成戦略を通じてテキスト情報を強化する。
暗黙的な拡張のために,構造体融合埋込みにおける特徴空間で機能する5つの新しい摂動手法を設計する。
これらの摂動は、埋め込みのセマンティックな特性とリレーショナルな特性を維持し、それらをより多様にするように設計されている。
具体的には、SED-AugはTwitter2012データセットで17.67%、Twitter2018データセットで15.57%、F1スコアで最高のベースラインモデルを上回っている。
コードはGitHubで入手できる。
関連論文リスト
- PromptAug: Fine-grained Conflict Classification Using Data Augmentation [5.053303126748248]
競合関連データの増大は、Large Language Modelガードレールによって、ユニークな課題を引き起こします。
本稿では,革新的なLCMに基づくデータ拡張手法であるPromptAugを紹介する。
PromptAugは、コンフリクトと感情データセットの精度とF1スコアの両方で2%の統計的に有意な改善を行った。
論文 参考訳(メタデータ) (2025-06-24T15:33:18Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Towards Effective, Efficient and Unsupervised Social Event Detection in the Hyperbolic Space [54.936897625837474]
この記事では、教師なしフレームワークHyperSED(Hyperbolic SED)を紹介します。
具体的には、まずソーシャルメッセージをセマンティックベースのメッセージアンカーにモデル化し、次にアンカーグラフの構造を利用する。
公開データセットの実験では、HyperSEDの競合性能と、大幅な効率向上が示されている。
論文 参考訳(メタデータ) (2024-12-14T06:55:27Z) - Exploring ChatGPT-based Augmentation Strategies for Contrastive Aspect-based Sentiment Analysis [10.69498984286374]
アスペクトベースの感情分析(ABSA)は、文中の特定の側面の言葉に対する感情を識別する。
本稿では,ChatGPTを用いたデータ拡張の可能性を探究し,アスペクトの観点からの感情分類性能を向上する。
論文 参考訳(メタデータ) (2024-09-17T14:12:08Z) - Genetic Learning for Designing Sim-to-Real Data Augmentations [1.03590082373586]
データ拡張は、合成データのトレーニングにおいて、sim-to-realドメインギャップを閉じるのに有用である。
多くの画像増強技術があり、強度や確率などの異なる設定でパラメータ化されている。
本稿では、特定のsim-to-real設定に対して、ある拡張ポリシーがどの程度うまく機能するかを予測するために、組み合わせられる2つの異なる解釈可能な指標を提案する。
論文 参考訳(メタデータ) (2024-03-11T15:00:56Z) - Hierarchical Knowledge Distillation on Text Graph for Data-limited
Attribute Inference [5.618638372635474]
我々は,ソーシャルメディアのテキストデータに基づく属性推論のためのテキストグラフに基づく少ショット学習モデルを開発した。
我々のモデルはまず、多様体学習とメッセージパッシングを用いてテキストグラフを構築し、洗練する。
クロスドメインテキストと未ラベルテキストをさらに活用して、少数ショットのパフォーマンスを向上させるために、テキストグラフ上で階層的な知識蒸留が考案される。
論文 参考訳(メタデータ) (2024-01-10T05:50:34Z) - InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot
Interactions [23.296139146133573]
言語あいまいさ下での対話型視覚グラウンドのための大規模データセットであるinvigを提示する。
我々のデータセットは、オープンな目標指向の曖昧さの対話を伴う520K以上の画像で構成されている。
私たちの知る限りでは、Invigデータセットは、オープンエンドのインタラクティブな視覚的グラウンドを解決するための、最初の大規模データセットです。
論文 参考訳(メタデータ) (2023-10-18T17:57:05Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。