論文の概要: Enhancing Rumor Detection Methods with Propagation Structure Infused Language Model
- arxiv url: http://arxiv.org/abs/2508.07209v1
- Date: Sun, 10 Aug 2025 07:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.755105
- Title: Enhancing Rumor Detection Methods with Propagation Structure Infused Language Model
- Title(参考訳): 伝搬構造注入言語モデルによる騒音検出手法の強化
- Authors: Chaoqun Cui, Siyuan Li, Kunkun Ma, Caiyan Jia,
- Abstract要約: 本稿では,伝播構造から言語モデルに情報を注入する,PEP(Post Engagement Prediction)と呼ばれる継続事前学習戦略を提案する。
PEPは、ポスト間のルート、分岐、親関係を予測するモデルを作成し、噂の検出に不可欠なスタンスと感情の相互作用をキャプチャする。
TwitterCorpus(269GBテキスト)と、伝搬構造を持つ2つのラベルなしクレーム会話データセット(UTwitterとUWeibo)をキュレートしてリリースしています。
- 参考スコア(独自算出の注目度): 20.002086667357595
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Pretrained Language Models (PLMs) have excelled in various Natural Language Processing tasks, benefiting from large-scale pretraining and self-attention mechanism's ability to capture long-range dependencies. However, their performance on social media application tasks like rumor detection remains suboptimal. We attribute this to mismatches between pretraining corpora and social texts, inadequate handling of unique social symbols, and pretraining tasks ill-suited for modeling user engagements implicit in propagation structures. To address these issues, we propose a continue pretraining strategy called Post Engagement Prediction (PEP) to infuse information from propagation structures into PLMs. PEP makes models to predict root, branch, and parent relations between posts, capturing interactions of stance and sentiment crucial for rumor detection. We also curate and release large-scale Twitter corpus: TwitterCorpus (269GB text), and two unlabeled claim conversation datasets with propagation structures (UTwitter and UWeibo). Utilizing these resources and PEP strategy, we train a Twitter-tailored PLM called SoLM. Extensive experiments demonstrate PEP significantly boosts rumor detection performance across universal and social media PLMs, even in few-shot scenarios. On benchmark datasets, PEP enhances baseline models by 1.0-3.7\% accuracy, even enabling it to outperform current state-of-the-art methods on multiple datasets. SoLM alone, without high-level modules, also achieves competitive results, highlighting the strategy's effectiveness in learning discriminative post interaction features.
- Abstract(参考訳): Pretrained Language Models (PLM) は様々な自然言語処理タスクに優れており、大規模な事前学習と長期依存関係をキャプチャする自己認識機構の利点がある。
しかし、噂検出などのソーシャルメディアアプリケーションにおけるパフォーマンスは、依然として最適ではない。
これは、事前学習コーパスとソーシャルテキストのミスマッチ、ユニークなソーシャルシンボルの扱いの不十分、伝搬構造に暗黙的なユーザエンゲージメントをモデル化するのに不適な事前学習タスクが原因である。
これらの課題に対処するため,PEP(Post Engagement Prediction)と呼ばれる継続事前学習戦略を提案し,伝搬構造からPLMに情報を注入する。
PEPは、ポスト間のルート、分岐、親関係を予測するモデルを作成し、噂の検出に不可欠なスタンスと感情の相互作用をキャプチャする。
また、TwitterCorpus(269GBテキスト)と、伝搬構造を持つ2つのラベルなしクレーム会話データセット(UTwitterとUWeibo)をキュレートしてリリースしています。
これらのリソースとPEP戦略を利用することで、TwitterでカスタマイズされたPLMであるSoLMを訓練する。
大規模な実験により、PEPは、数ショットのシナリオであっても、ユニバーサルメディアやソーシャルメディアのPLMにおける噂検出性能を著しく向上させる。
ベンチマークデータセットでは、PEPはベースラインモデルを1.0-3.7 %の精度で拡張し、また複数のデータセット上で現在の最先端メソッドを上回ります。
ハイレベルなモジュールを持たないSoLMは競争結果も達成し、差別的なポストインタラクション機能を学ぶ上での戦略の有効性を強調している。
関連論文リスト
- Self-Rewarding PPO: Aligning Large Language Models with Demonstrations Only [70.43369087819332]
Supervised Fine-tuning (SFT) は、大規模な言語モデルと人間のアノテーションによる実演を整合させる重要な方法として登場した。
本稿では, 自己回帰型PPOを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:02:13Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。
我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-09T17:14:33Z) - TPP-LLM: Modeling Temporal Point Processes by Efficiently Fine-Tuning Large Language Models [0.0]
時間的ポイントプロセス(TPP)は、ソーシャルネットワーク、交通システム、eコマースなどのドメインにおけるイベントのタイミングと発生をモデル化するために広く用いられている。
イベントシーケンスのセマンティックな側面と時間的側面の両方をキャプチャするために,大規模言語モデル(LLM)とTPPを統合する新しいフレームワークであるTPP-LLMを紹介する。
論文 参考訳(メタデータ) (2024-10-02T22:17:24Z) - Relational Prompt-based Pre-trained Language Models for Social Event Detection [45.574891451459955]
ソーシャルイベント検出(SED)は、社会的ストリームから重要なイベントを識別することを目的としており、世論分析からリスク管理まで幅広い応用がある。
GNNベースのメソッドは、しばしばメッセージ間の欠落とノイズの多いエッジに悩まされ、学習されたメッセージの埋め込みの品質に影響する。
本稿では,メッセージペアにソーシャルメッセージを構築するための新しいペアワイズメッセージモデリング手法と,マルチリレーショナルなプロンプトベースのメッセージ学習機構を提案する。
RPLM_SEDモデルがオフライン,オンライン,低リソース,長テールで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-04-12T06:23:07Z) - PEMA: An Offsite-Tunable Plug-in External Memory Adaptation for Language Models [6.622419351156256]
プレトレーニング言語モデル (PLM) は、様々な下流のNLPタスクにおいて顕著な性能を示す。
大量の資源を必要とするため、多くのPLM重みは機密である。
本稿では,PEMA(Plug-in external Memory Adaptation)を紹介する。
すべての重みを必要とせずにファインチューニングを可能にするPEFT (Efficient Fine-Tuning) 法。
論文 参考訳(メタデータ) (2023-11-14T23:20:51Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文 参考訳(メタデータ) (2022-09-05T07:50:54Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。