論文の概要: Network-informed Prompt Engineering against Organized Astroturf Campaigns under Extreme Class Imbalance
- arxiv url: http://arxiv.org/abs/2501.11849v1
- Date: Tue, 21 Jan 2025 03:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:00.749190
- Title: Network-informed Prompt Engineering against Organized Astroturf Campaigns under Extreme Class Imbalance
- Title(参考訳): 極クラス不均衡下での組織化された天体運動に対するネットワークインフォームド・プロンプト・エンジニアリング
- Authors: Nikos Kanakaris, Heng Ping, Xiongye Xiao, Nesreen K. Ahmed, Luca Luceri, Emilio Ferrara, Paul Bogdan,
- Abstract要約: 本稿では,Twitter上でのアストロトゥルフキャンペーンを識別するための新しいフレームワークを提案する。
提案されたフレームワークは、言語モデルのトレーニングや微調整を一切必要としない。
我々のフレームワークは、精度、リコール、F1スコアの点で2x-3倍の改善を実現している。
- 参考スコア(独自算出の注目度): 18.23326023737371
- License:
- Abstract: Detecting organized political campaigns is of paramount importance in fighting against disinformation on social media. Existing approaches for the identification of such organized actions employ techniques mostly from network science, graph machine learning and natural language processing. Their ultimate goal is to analyze the relationships and interactions (e.g. re-posting) among users and the textual similarities of their posts. Despite their effectiveness in recognizing astroturf campaigns, these methods face significant challenges, notably the class imbalance in available training datasets. To mitigate this issue, recent methods usually resort to data augmentation or increasing the number of positive samples, which may not always be feasible or sufficient in real-world settings. Following a different path, in this paper, we propose a novel framework for identifying astroturf campaigns based solely on large language models (LLMs), introducing a Balanced Retrieval-Augmented Generation (Balanced RAG) component. Our approach first gives both textual information concerning the posts (in our case tweets) and the user interactions of the social network as input to a language model. Then, through prompt engineering and the proposed Balanced RAG method, it effectively detects coordinated disinformation campaigns on X (Twitter). The proposed framework does not require any training or fine-tuning of the language model. Instead, by strategically harnessing the strengths of prompt engineering and Balanced RAG, it facilitates LLMs to overcome the effects of class imbalance and effectively identify coordinated political campaigns. The experimental results demonstrate that by incorporating the proposed prompt engineering and Balanced RAG methods, our framework outperforms the traditional graph-based baselines, achieving 2x-3x improvements in terms of precision, recall and F1 scores.
- Abstract(参考訳): 組織的な政治キャンペーンを検出することは、ソーシャルメディア上の偽情報と戦う上で、最重要事項である。
このような組織化された行動を特定するための既存のアプローチは、主にネットワーク科学、グラフ機械学習、自然言語処理といった技術を用いている。
彼らの最終的な目標は、ユーザー間の関係と相互作用(例えば、再投稿)と投稿のテキスト的類似性を分析することである。
アストロターフキャンペーンの認識に効果があるにもかかわらず、これらの手法は重要な課題に直面しており、特に利用可能なトレーニングデータセットのクラス不均衡が顕著である。
この問題を緩和するために、最近の手法は、通常、データ拡張や正のサンプルの数の増加を頼りにしている。
本稿では,大言語モデル(LLM)のみに基づくアストロトゥルフキャンペーンを識別するための新しいフレームワークを提案し,このフレームワークでは,Balanced Retrieval-Augmented Generation (Balanced RAG) コンポーネントを導入している。
本稿ではまず,投稿に関するテキスト情報(つぶやきの場合)と,言語モデルへの入力としてソーシャルネットワークのユーザインタラクションを提供する。
そして, プロンプトエンジニアリングと提案手法であるBalanced RAGにより, X (Twitter) 上での協調的偽情報キャンペーンを効果的に検出する。
提案されたフレームワークは、言語モデルのトレーニングや微調整を一切必要としない。
代わりに、迅速なエンジニアリングとバランスされたRAGの強みを戦略的に活用することで、LLMは階級不均衡の影響を克服し、協調した政治キャンペーンを効果的に特定するのに役立つ。
実験の結果,提案手法を組み込むことにより,従来のグラフベースベースラインよりも優れ,精度,リコール,F1スコアの点で2x-3倍の改善が得られた。
関連論文リスト
- PoliPrompt: A High-Performance Cost-Effective LLM-Based Text Classification Framework for Political Science [1.6967824074619953]
本稿では,大規模言語モデルを活用して分類精度を向上させる3段階のインコンテキスト学習手法を提案する。
我々は,BBCの報道,カバノー最高裁判所の確認,2018年の選挙キャンペーン広告のデータセットを用いて,我々のアプローチを検証する。
その結果, 管理可能な経済コストによる分類F1スコア(ゼロショット分類では+0.36)の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-09-02T21:05:31Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - TA&AT: Enhancing Task-Oriented Dialog with Turn-Level Auxiliary Tasks
and Action-Tree Based Scheduled Sampling [16.77137239284608]
タスク指向対話システムは,対話型事前学習技術によって大きく進歩している。
エンコーダのターンレベルマルチタスク目的を提案する。
デコーダに対しては,アクションツリーに基づくスケジュールサンプリング手法を導入する。
論文 参考訳(メタデータ) (2024-01-28T11:02:23Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Fair Representation Learning for Heterogeneous Information Networks [35.80367469624887]
公平なHIN表現学習のための包括的非バイアス化手法を提案する。
これらのアルゴリズムの挙動,特にフェアネスと予測精度のトレードオフをバランスさせる能力について検討した。
キャリアカウンセリングの自動化アプリケーションにおいて,提案手法の性能を評価する。
論文 参考訳(メタデータ) (2021-04-18T08:28:18Z) - Improving speech recognition models with small samples for air traffic
control systems [9.322392779428505]
本研究では, 小さなトレーニングサンプルの課題に対処すべく, 事前学習とトランスファー学習に基づく新しいトレーニング手法を提案する。
3つの実際のATCデータセットを使用して、提案されたASRモデルとトレーニング戦略を検証する。
実験の結果,ASRの性能は3つのデータセットで大幅に向上した。
論文 参考訳(メタデータ) (2021-02-16T08:28:52Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。