論文の概要: Towards High-Fidelity Synthetic Multi-platform Social Media Datasets via Large Language Models
- arxiv url: http://arxiv.org/abs/2505.02858v1
- Date: Fri, 02 May 2025 18:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.04093
- Title: Towards High-Fidelity Synthetic Multi-platform Social Media Datasets via Large Language Models
- Title(参考訳): 大規模言語モデルによる多プラットフォームソーシャルメディアデータセットの高忠実化に向けて
- Authors: Henry Tari, Nojus Sereiva, Rishabh Kaushal, Thales Bertaglia, Adriana Iamnitchi,
- Abstract要約: ソーシャルメディアデータセットは、偽情報、インフルエンサー操作、ヘイトスピーチ検出、インフルエンサーマーケティングプラクティスなど、さまざまなトピックの研究に不可欠である。
ソーシャルメディアのデータセットへのアクセスは、コストとプラットフォーム制限のために制限されることが多い。
本稿では,複数のプラットフォームにまたがって,語彙的および意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media datasets are essential for research on a variety of topics, such as disinformation, influence operations, hate speech detection, or influencer marketing practices. However, access to social media datasets is often constrained due to costs and platform restrictions. Acquiring datasets that span multiple platforms, which is crucial for understanding the digital ecosystem, is particularly challenging. This paper explores the potential of large language models to create lexically and semantically relevant social media datasets across multiple platforms, aiming to match the quality of real data. We propose multi-platform topic-based prompting and employ various language models to generate synthetic data from two real datasets, each consisting of posts from three different social media platforms. We assess the lexical and semantic properties of the synthetic data and compare them with those of the real data. Our empirical findings show that using large language models to generate synthetic multi-platform social media data is promising, different language models perform differently in terms of fidelity, and a post-processing approach might be needed for generating high-fidelity synthetic datasets for research. In addition to the empirical evaluation of three state of the art large language models, our contributions include new fidelity metrics specific to multi-platform social media datasets.
- Abstract(参考訳): ソーシャルメディアデータセットは、偽情報、インフルエンサー操作、ヘイトスピーチ検出、インフルエンサーマーケティングプラクティスなど、さまざまなトピックの研究に不可欠である。
しかし、ソーシャルメディアのデータセットへのアクセスは、コストとプラットフォーム制限のために制限されることが多い。
デジタルエコシステムを理解する上で重要な、複数のプラットフォームにまたがるデータセットの取得は特に難しい。
本稿では,複数のプラットフォームにまたがって語彙的・意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。
本稿では,3つのソーシャルメディアプラットフォームから投稿された2つの実際のデータセットから合成データを生成するために,多プラットフォームなトピックベースプロンプトを提案し,様々な言語モデルを用いた。
合成データの語彙的・意味的特性を評価し,実データと比較する。
実験結果から, 大規模言語モデルを用いて合成多プラットフォームソーシャルメディアデータを生成することは有望であり, 異なる言語モデルが忠実度で異なる性能を示し, 研究のために高忠実度合成データセットを生成するためには, 後処理のアプローチが必要である可能性が示唆された。
最先端の3つの大規模言語モデルの実証評価に加えて、多プラットフォームソーシャルメディアデータセットに特有の新しい忠実度指標も提案する。
関連論文リスト
- Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。
まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか?
第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか?
第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Enhancing Data Quality through Simple De-duplication: Navigating Responsible Computational Social Science Research [31.993279516471283]
我々は,計算社会科学のNLPで広く使われている20のデータセットについて,詳細な調査を行う。
分析の結果、ソーシャルメディアのデータセットは様々なレベルのデータ重複を示すことが明らかとなった。
以上の結果から,データ重複が現状の最先端性能の主張に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2024-10-04T15:58:15Z) - Towards Realistic Synthetic User-Generated Content: A Scaffolding Approach to Generating Online Discussions [17.96479268328824]
ユーザ生成コンテンツの現実的で大規模な合成データセット作成の実現可能性について検討する。
本稿では,議論スレッドのコンパクトな表現のアイデアに基づく多段階生成プロセスを提案する。
論文 参考訳(メタデータ) (2024-08-15T18:43:50Z) - Leveraging GPT for the Generation of Multi-Platform Social Media Datasets for Research [0.0]
ソーシャルメディアデータセットは、偽情報、影響操作、ソーシャルセンシング、ヘイトスピーチ検出、サイバーいじめ、その他の重要なトピックの研究に不可欠である。
これらのデータセットへのアクセスは、コストとプラットフォーム規制のために制限されることが多い。
本稿では,複数のプラットフォームにまたがって,語彙的および意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-07-11T09:12:39Z) - Language and Multimodal Models in Sports: A Survey of Datasets and Applications [20.99857526324661]
自然言語処理(NLP)とマルチモーダルモデルの最近の統合は、スポーツ分析の分野を進歩させてきた。
この調査は、2020年以降のこれらのイノベーションを駆動するデータセットとアプリケーションの包括的なレビューを示す。
論文 参考訳(メタデータ) (2024-06-18T03:59:26Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。