論文の概要: Limited Effectiveness of LLM-based Data Augmentation for COVID-19 Misinformation Stance Detection
- arxiv url: http://arxiv.org/abs/2503.02328v1
- Date: Tue, 04 Mar 2025 06:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:40.441499
- Title: Limited Effectiveness of LLM-based Data Augmentation for COVID-19 Misinformation Stance Detection
- Title(参考訳): LLMデータ拡張によるCOVID-19ミス情報スタンス検出の限定的効果
- Authors: Eun Cheol Choi, Ashwin Balasubramanian, Jinhu Qi, Emilio Ferrara,
- Abstract要約: 発生したアウトブレイクを取り巻く誤報は、深刻な社会的脅威を引き起こす。
1つの有望なアプローチはスタンス検出(SD)であり、これはソーシャルメディア投稿が誤解を招く主張を支持しているか、反対しているかを識別するものである。
データ拡張手法として,大言語モデル(LLM)を用いて制御可能な誤情報生成をテストする。
- 参考スコア(独自算出の注目度): 7.807156538988814
- License:
- Abstract: Misinformation surrounding emerging outbreaks poses a serious societal threat, making robust countermeasures essential. One promising approach is stance detection (SD), which identifies whether social media posts support or oppose misleading claims. In this work, we finetune classifiers on COVID-19 misinformation SD datasets consisting of claims and corresponding tweets. Specifically, we test controllable misinformation generation (CMG) using large language models (LLMs) as a method for data augmentation. While CMG demonstrates the potential for expanding training datasets, our experiments reveal that performance gains over traditional augmentation methods are often minimal and inconsistent, primarily due to built-in safeguards within LLMs. We release our code and datasets to facilitate further research on misinformation detection and generation.
- Abstract(参考訳): 発生したアウトブレイクを取り巻く誤報は深刻な社会的脅威となり、堅牢な対策が不可欠である。
1つの有望なアプローチはスタンス検出(SD)であり、これはソーシャルメディア投稿が誤解を招く主張を支持しているか、反対しているかを識別するものである。
本研究では、クレームと対応するつぶやきからなる、新型コロナウイルスの誤報SDデータセットの分類を微調整する。
具体的には、大言語モデル(LLM)をデータ拡張の手法として用いて、制御可能な誤情報生成(CMG)をテストする。
CMGはトレーニングデータセットを拡大する可能性を実証していますが、従来の拡張手法よりもパフォーマンスの向上は最小限で一貫性がありません。
我々は、誤情報の検出と生成に関するさらなる研究を容易にするために、コードとデータセットをリリースします。
関連論文リスト
- Evaluating the Performance of Large Language Models in Scientific Claim Detection and Classification [0.0]
本研究では,Twitterのようなプラットフォーム上での誤情報を緩和する革新的な手法として,LLM(Large Language Models)の有効性を評価する。
LLMは、従来の機械学習モデルに関連する広範なトレーニングと過度に適合する問題を回避し、事前訓練された適応可能なアプローチを提供する。
特定データセットを用いたLCMの性能の比較分析を行い、公衆衛生コミュニケーションへの応用のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-21T05:02:26Z) - Curriculum-style Data Augmentation for LLM-based Metaphor Detection [7.4594050203808395]
オープンソースLLMの微調整によるメタファ検出手法を提案する。
本手法は,すべてのベースラインにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T02:05:21Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Automated Claim Matching with Large Language Models: Empowering
Fact-Checkers in the Fight Against Misinformation [11.323961700172175]
FACT-GPTは、大規模言語モデルを用いたファクトチェックのクレームマッチングフェーズを自動化するために設計されたフレームワークである。
このフレームワークは、ファクトチェッカーによって以前否定された主張を支持したり、否定したりする新しいソーシャルメディアコンテンツを識別する。
FACT-GPTを公衆衛生に関連するソーシャルメディアコンテンツのデータセットとして評価した。
論文 参考訳(メタデータ) (2023-10-13T16:21:07Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Testing the Generalization of Neural Language Models for COVID-19
Misinformation Detection [6.1204874238049705]
新型コロナウイルス(COVID-19)のパンデミックの副産物として、生命を脅かす可能性のある誤報が大幅に増加した。
5つの誤報データセットを用いてトランスフォーマーに基づく15のモデルを評価する。
新型コロナウイルス(COVID-19)データに合わせたトークンやモデルは、汎用データに対して大きな優位性を提供していない。
論文 参考訳(メタデータ) (2021-11-15T15:01:55Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。
モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文 参考訳(メタデータ) (2020-07-21T02:21:10Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Independent Component Analysis for Trustworthy Cyberspace during High
Impact Events: An Application to Covid-19 [4.629100947762816]
新型コロナウイルス(COVID-19)の感染拡大など、ソーシャルメディアは重要なコミュニケーションチャンネルとなっている。
ソーシャルメディアにおける誤報が急速に拡散し、社会不安を生じさせるため、そのような出来事における誤報の拡散は重要なデータ課題である。
本稿では,ICAモデルに基づくデータ駆動型ソリューションを提案する。
論文 参考訳(メタデータ) (2020-06-01T21:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。