論文の概要: The Power of LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions
- arxiv url: http://arxiv.org/abs/2406.12480v2
- Date: Wed, 12 Mar 2025 22:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 19:21:20.351806
- Title: The Power of LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions
- Title(参考訳): オンライン政治討論における筆跡検出のためのLLM生成合成データの活用
- Authors: Stefan Sylvius Wagner, Maike Behrendt, Marc Ziegele, Stefan Harmeling,
- Abstract要約: スタンス検出は、議論プラットフォームへの展開を通じて、オンラインの政治的議論を改善する大きな可能性を秘めている。
伝統的に、トランスフォーマーベースのモデルは、大量のデータを必要とする姿勢検出に直接使用される。
LLM生成合成データは,オンライン政治討論における姿勢検出にどのように役立つかを示す。
- 参考スコア(独自算出の注目度): 1.1624569521079426
- License:
- Abstract: Stance detection holds great potential to improve online political discussions through its deployment in discussion platforms for purposes such as content moderation, topic summarization or to facilitate more balanced discussions. Typically, transformer-based models are employed directly for stance detection, requiring vast amounts of data. However, the wide variety of debate topics in online political discussions makes data collection particularly challenging. LLMs have revived stance detection, but their online deployment in online political discussions faces challenges like inconsistent outputs, biases, and vulnerability to adversarial attacks. We show how LLM-generated synthetic data can improve stance detection for online political discussions by using reliable traditional stance detection models for online deployment, while leveraging the text generation capabilities of LLMs for synthetic data generation in a secure offline environment. To achieve this, (i) we generate synthetic data for specific debate questions by prompting a Mistral-7B model and show that fine-tuning with the generated synthetic data can substantially improve the performance of stance detection, while remaining interpretable and aligned with real world data. (ii) Using the synthetic data as a reference, we can improve performance even further by identifying the most informative samples in an unlabelled dataset, i.e., those samples which the stance detection model is most uncertain about and can benefit from the most. By fine-tuning with both synthetic data and the most informative samples, we surpass the performance of the baseline model that is fine-tuned on all true labels, while labelling considerably less data.
- Abstract(参考訳): スタンス検出は、コンテンツモデレーションやトピックの要約、よりバランスの取れた議論の促進といった目的のために、議論プラットフォームに展開することで、オンラインの政治的議論を改善する大きな可能性を秘めている。
典型的には、トランスフォーマーベースのモデルは、大量のデータを必要とする姿勢検出に直接使用される。
しかし、オンライン政治討論における様々な議論の話題は、データ収集を特に困難にしている。
LLMはスタンス検出を復活させたが、オンライン政治討論におけるオンライン展開は、矛盾したアウトプット、バイアス、敵の攻撃に対する脆弱性といった課題に直面している。
LLMの生成した合成データは、安全なオフライン環境での合成データ生成にLLMのテキスト生成機能を活用しながら、信頼性の高い従来の姿勢検出モデルを用いて、オンライン政治議論の姿勢検出を改善する方法を示す。
これを達成するために。
そこで,本研究では,Mistral-7Bモデルにより,特定の議論のための合成データを生成し,生成した合成データによる微調整により,解釈可能かつ実世界のデータとの整合性を保ちながら,スタンス検出の性能を大幅に向上させることができることを示す。
2) 合成データを参照として使用することにより,非ラベルデータセット中の最も情報に富むサンプル,すなわち,姿勢検出モデルが最も不確実で,最も有利なサンプルを同定することにより,さらに性能を向上させることができる。
合成データと最も情報性の高いサンプルの両方を微調整することにより、全ての真のラベルに微調整されたベースラインモデルの性能をはるかに上回り、ラベル付けもかなり少ない。
関連論文リスト
- Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - SQBC: Active Learning using LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions [1.1624569521079426]
オンライン政治討論における姿勢検出エージェントの訓練と改善にLLM生成合成データを活用する2つの方法を提案する。
まず,簡単な微調整データセットを合成データで拡張することで,姿勢検出モデルの性能を向上できることを示す。
第2に,クエリ・バイ・コミティ(Query-by-Comittee)アプローチに基づくSQBCと呼ばれる新しいアクティブ・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T18:34:11Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic Data Generation with Large Language Models for Text
Classification: Potential and Limitations [21.583825474908334]
本研究では,合成データに基づいて学習したモデルの性能が,分類の主観性によってどう変化するかを検討する。
その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づいて訓練されたモデルの性能と負の相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-10-11T19:51:13Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。