論文の概要: The Power of LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions
- arxiv url: http://arxiv.org/abs/2406.12480v2
- Date: Wed, 12 Mar 2025 22:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.268868
- Title: The Power of LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions
- Title(参考訳): オンライン政治討論における筆跡検出のためのLLM生成合成データの活用
- Authors: Stefan Sylvius Wagner, Maike Behrendt, Marc Ziegele, Stefan Harmeling,
- Abstract要約: スタンス検出は、議論プラットフォームへの展開を通じて、オンラインの政治的議論を改善する大きな可能性を秘めている。
伝統的に、トランスフォーマーベースのモデルは、大量のデータを必要とする姿勢検出に直接使用される。
LLM生成合成データは,オンライン政治討論における姿勢検出にどのように役立つかを示す。
- 参考スコア(独自算出の注目度): 1.1624569521079426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stance detection holds great potential to improve online political discussions through its deployment in discussion platforms for purposes such as content moderation, topic summarization or to facilitate more balanced discussions. Typically, transformer-based models are employed directly for stance detection, requiring vast amounts of data. However, the wide variety of debate topics in online political discussions makes data collection particularly challenging. LLMs have revived stance detection, but their online deployment in online political discussions faces challenges like inconsistent outputs, biases, and vulnerability to adversarial attacks. We show how LLM-generated synthetic data can improve stance detection for online political discussions by using reliable traditional stance detection models for online deployment, while leveraging the text generation capabilities of LLMs for synthetic data generation in a secure offline environment. To achieve this, (i) we generate synthetic data for specific debate questions by prompting a Mistral-7B model and show that fine-tuning with the generated synthetic data can substantially improve the performance of stance detection, while remaining interpretable and aligned with real world data. (ii) Using the synthetic data as a reference, we can improve performance even further by identifying the most informative samples in an unlabelled dataset, i.e., those samples which the stance detection model is most uncertain about and can benefit from the most. By fine-tuning with both synthetic data and the most informative samples, we surpass the performance of the baseline model that is fine-tuned on all true labels, while labelling considerably less data.
- Abstract(参考訳): スタンス検出は、コンテンツモデレーションやトピックの要約、よりバランスの取れた議論の促進といった目的のために、議論プラットフォームに展開することで、オンラインの政治的議論を改善する大きな可能性を秘めている。
典型的には、トランスフォーマーベースのモデルは、大量のデータを必要とする姿勢検出に直接使用される。
しかし、オンライン政治討論における様々な議論の話題は、データ収集を特に困難にしている。
LLMはスタンス検出を復活させたが、オンライン政治討論におけるオンライン展開は、矛盾したアウトプット、バイアス、敵の攻撃に対する脆弱性といった課題に直面している。
LLMの生成した合成データは、安全なオフライン環境での合成データ生成にLLMのテキスト生成機能を活用しながら、信頼性の高い従来の姿勢検出モデルを用いて、オンライン政治議論の姿勢検出を改善する方法を示す。
これを達成するために。
そこで,本研究では,Mistral-7Bモデルにより,特定の議論のための合成データを生成し,生成した合成データによる微調整により,解釈可能かつ実世界のデータとの整合性を保ちながら,スタンス検出の性能を大幅に向上させることができることを示す。
2) 合成データを参照として使用することにより,非ラベルデータセット中の最も情報に富むサンプル,すなわち,姿勢検出モデルが最も不確実で,最も有利なサンプルを同定することにより,さらに性能を向上させることができる。
合成データと最も情報性の高いサンプルの両方を微調整することにより、全ての真のラベルに微調整されたベースラインモデルの性能をはるかに上回り、ラベル付けもかなり少ない。
関連論文リスト
- From Reviews to Dialogues: Active Synthesis for Zero-Shot LLM-based Conversational Recommender System [49.57258257916805]
大きな言語モデル(LLM)は強力なゼロショットレコメンデーション機能を示している。
現実的なアプリケーションは、スケーラビリティ、解釈可能性、データプライバシの制約により、より小さく、内部的に管理された推奨モデルを好むことが多い。
能動学習技術によって導かれるブラックボックスLSMを利用して,会話学習データを合成する能動データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T23:05:47Z) - The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text [23.412546862849396]
我々は、事前訓練された大規模言語モデル(LLM)を微調整するために使用されるデータをターゲットにした会員推論攻撃(MIA)を設計する。
このようなデータに基づくMIAは、ランダムな推測よりもはるかに優れていることを示し、これは、合成データがトレーニングデータに関する情報を漏洩することを意味する。
この問題に対処するために、自動回帰モデルの力学を活用して、非分配プレフィックスと高パープレキサフィックスを備えたカナリアを設計する。
論文 参考訳(メタデータ) (2025-02-19T15:30:30Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Towards Realistic Synthetic User-Generated Content: A Scaffolding Approach to Generating Online Discussions [17.96479268328824]
ユーザ生成コンテンツの現実的で大規模な合成データセット作成の実現可能性について検討する。
本稿では,議論スレッドのコンパクトな表現のアイデアに基づく多段階生成プロセスを提案する。
論文 参考訳(メタデータ) (2024-08-15T18:43:50Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。
過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。
我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - SQBC: Active Learning using LLM-Generated Synthetic Data for Stance Detection in Online Political Discussions [1.1624569521079426]
オンライン政治討論における姿勢検出エージェントの訓練と改善にLLM生成合成データを活用する2つの方法を提案する。
まず,簡単な微調整データセットを合成データで拡張することで,姿勢検出モデルの性能を向上できることを示す。
第2に,クエリ・バイ・コミティ(Query-by-Comittee)アプローチに基づくSQBCと呼ばれる新しいアクティブ・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T18:34:11Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - On Synthetic Data for Back Translation [66.6342561585953]
逆翻訳(BT)はNTT研究分野において最も重要な技術の一つである。
バックトランスレーションNMTの性能を制御する合成データには,品質と重要性の2つの重要な要素を同定する。
そこで本研究では,BTの性能向上のために,両因子のトレードオフを改善するため,合成データを生成するための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-20T17:24:12Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。