論文の概要: Enhancing Rumor Detection Methods with Propagation Structure Infused Language Model
- arxiv url: http://arxiv.org/abs/2508.07209v1
- Date: Sun, 10 Aug 2025 07:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.755105
- Title: Enhancing Rumor Detection Methods with Propagation Structure Infused Language Model
- Title(参考訳): 伝搬構造注入言語モデルによる騒音検出手法の強化
- Authors: Chaoqun Cui, Siyuan Li, Kunkun Ma, Caiyan Jia,
- Abstract要約: 本稿では,伝播構造から言語モデルに情報を注入する,PEP(Post Engagement Prediction)と呼ばれる継続事前学習戦略を提案する。
PEPは、ポスト間のルート、分岐、親関係を予測するモデルを作成し、噂の検出に不可欠なスタンスと感情の相互作用をキャプチャする。
TwitterCorpus(269GBテキスト)と、伝搬構造を持つ2つのラベルなしクレーム会話データセット(UTwitterとUWeibo)をキュレートしてリリースしています。
- 参考スコア(独自算出の注目度): 20.002086667357595
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Pretrained Language Models (PLMs) have excelled in various Natural Language Processing tasks, benefiting from large-scale pretraining and self-attention mechanism's ability to capture long-range dependencies. However, their performance on social media application tasks like rumor detection remains suboptimal. We attribute this to mismatches between pretraining corpora and social texts, inadequate handling of unique social symbols, and pretraining tasks ill-suited for modeling user engagements implicit in propagation structures. To address these issues, we propose a continue pretraining strategy called Post Engagement Prediction (PEP) to infuse information from propagation structures into PLMs. PEP makes models to predict root, branch, and parent relations between posts, capturing interactions of stance and sentiment crucial for rumor detection. We also curate and release large-scale Twitter corpus: TwitterCorpus (269GB text), and two unlabeled claim conversation datasets with propagation structures (UTwitter and UWeibo). Utilizing these resources and PEP strategy, we train a Twitter-tailored PLM called SoLM. Extensive experiments demonstrate PEP significantly boosts rumor detection performance across universal and social media PLMs, even in few-shot scenarios. On benchmark datasets, PEP enhances baseline models by 1.0-3.7\% accuracy, even enabling it to outperform current state-of-the-art methods on multiple datasets. SoLM alone, without high-level modules, also achieves competitive results, highlighting the strategy's effectiveness in learning discriminative post interaction features.
- Abstract(参考訳): Pretrained Language Models (PLM) は様々な自然言語処理タスクに優れており、大規模な事前学習と長期依存関係をキャプチャする自己認識機構の利点がある。
しかし、噂検出などのソーシャルメディアアプリケーションにおけるパフォーマンスは、依然として最適ではない。
これは、事前学習コーパスとソーシャルテキストのミスマッチ、ユニークなソーシャルシンボルの扱いの不十分、伝搬構造に暗黙的なユーザエンゲージメントをモデル化するのに不適な事前学習タスクが原因である。
これらの課題に対処するため,PEP(Post Engagement Prediction)と呼ばれる継続事前学習戦略を提案し,伝搬構造からPLMに情報を注入する。
PEPは、ポスト間のルート、分岐、親関係を予測するモデルを作成し、噂の検出に不可欠なスタンスと感情の相互作用をキャプチャする。
また、TwitterCorpus(269GBテキスト)と、伝搬構造を持つ2つのラベルなしクレーム会話データセット(UTwitterとUWeibo)をキュレートしてリリースしています。
これらのリソースとPEP戦略を利用することで、TwitterでカスタマイズされたPLMであるSoLMを訓練する。
大規模な実験により、PEPは、数ショットのシナリオであっても、ユニバーサルメディアやソーシャルメディアのPLMにおける噂検出性能を著しく向上させる。
ベンチマークデータセットでは、PEPはベースラインモデルを1.0-3.7 %の精度で拡張し、また複数のデータセット上で現在の最先端メソッドを上回ります。
ハイレベルなモジュールを持たないSoLMは競争結果も達成し、差別的なポストインタラクション機能を学ぶ上での戦略の有効性を強調している。
関連論文リスト
- TPP-LLM: Modeling Temporal Point Processes by Efficiently Fine-Tuning Large Language Models [0.0]
時間的ポイントプロセス(TPP)は、ソーシャルネットワーク、交通システム、eコマースなどのドメインにおけるイベントのタイミングと発生をモデル化するために広く用いられている。
イベントシーケンスのセマンティックな側面と時間的側面の両方をキャプチャするために,大規模言語モデル(LLM)とTPPを統合する新しいフレームワークであるTPP-LLMを紹介する。
論文 参考訳(メタデータ) (2024-10-02T22:17:24Z) - Relational Prompt-based Pre-trained Language Models for Social Event Detection [45.574891451459955]
ソーシャルイベント検出(SED)は、社会的ストリームから重要なイベントを識別することを目的としており、世論分析からリスク管理まで幅広い応用がある。
GNNベースのメソッドは、しばしばメッセージ間の欠落とノイズの多いエッジに悩まされ、学習されたメッセージの埋め込みの品質に影響する。
本稿では,メッセージペアにソーシャルメッセージを構築するための新しいペアワイズメッセージモデリング手法と,マルチリレーショナルなプロンプトベースのメッセージ学習機構を提案する。
RPLM_SEDモデルがオフライン,オンライン,低リソース,長テールで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-04-12T06:23:07Z) - PEMA: An Offsite-Tunable Plug-in External Memory Adaptation for Language Models [6.622419351156256]
プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクにおいて顕著な性能を示す。
大量の資源を必要とするため、多くのPLM重みは機密である。
本稿では,PEMA(Plug-in external Memory Adaptation)を紹介する。
すべての重みを必要とせずにファインチューニングを可能にするPEFT (Efficient Fine-Tuning) 法。
論文 参考訳(メタデータ) (2023-11-14T23:20:51Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文 参考訳(メタデータ) (2022-09-05T07:50:54Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。