論文の概要: Multi-Platform Aggregated Dataset of Online Communities (MADOC)
- arxiv url: http://arxiv.org/abs/2501.12886v1
- Date: Wed, 22 Jan 2025 14:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:57.266973
- Title: Multi-Platform Aggregated Dataset of Online Communities (MADOC)
- Title(参考訳): オンラインコミュニティのマルチプラットフォーム集約データセット(MADOC)
- Authors: Marija Mitrović Dankulov, Aleksandar Tomašević, Slobodan Maletić, Miroslav Anđelković, Ana Vranić, Darja Cvetković, Boris Stupovski, Dušan Vudragović, Sara Major, Aleksandar Bogojević,
- Abstract要約: MADOCはBluesky、Koo、Reddit、Voat(2012-2024)のデータを集め、標準化している。
このデータセットは、標準化されたインタラクション記録と感情分析を通じて、プラットフォーム間の有害な振る舞いの進化の比較研究を可能にする。
- 参考スコア(独自算出の注目度): 64.45797970830233
- License:
- Abstract: The Multi-platform Aggregated Dataset of Online Communities (MADOC) is a comprehensive dataset that facilitates computational social science research by providing FAIR-compliant standardized access to cross-platform analysis of online social dynamics. MADOC aggregates and standardizes data from Bluesky, Koo, Reddit, and Voat (2012-2024), containing 18.9 million posts, 236 million comments, and 23.1 million unique users. The dataset enables comparative studies of toxic behavior evolution across platforms through standardized interaction records and sentiment analysis. By providing UUID-anonymized user histories and temporal alignment of banned communities' activity patterns, MADOC supports research on content moderation impacts and platform migration trends. Distributed via Zenodo with persistent identifiers and Python/R toolkits, the dataset adheres to FAIR principles while addressing post-API-era research challenges through ethical aggregation of public social media archives.
- Abstract(参考訳): Multi-platform Aggregated Dataset of Online Communities (MADOC)は、FAIR準拠の標準化されたオンラインソーシャルダイナミクスのクロスプラットフォーム分析へのアクセスを提供することにより、計算社会科学の研究を促進する包括的なデータセットである。
MADOCはBluesky、Koo、Reddit、Voat(2012-2024)のデータを集め、標準化している。
このデータセットは、標準化されたインタラクション記録と感情分析を通じて、プラットフォーム間の有害な振る舞いの進化の比較研究を可能にする。
UUIDで匿名化されたユーザ履歴と禁止されたコミュニティのアクティビティパターンの時間的アライメントを提供することで、MADOCはコンテンツモデレーションの影響とプラットフォーム移行トレンドの研究を支援する。
永続的な識別子とPython/Rツールキットを備えたZenodo経由で配布されたデータセットは、公開ソーシャルメディアアーカイブの倫理的集約を通じて、API時代の研究課題に対処しながら、FAIR原則に準拠している。
関連論文リスト
- Labeled Datasets for Research on Information Operations [71.34999856621306]
ソーシャルメディアプラットフォームによって検証されたIOポストと、同様のトピックを同じ時間フレーム(制御データ)で議論した303kアカウントによる1300万以上の投稿の両方を含む、26のキャンペーンに関するラベル付きデータセットを新たに提示する。
データセットは、さまざまなキャンペーンや国で調整されたアカウントによって使用される物語、ネットワークインタラクション、エンゲージメント戦略の研究を促進する。
論文 参考訳(メタデータ) (2024-11-15T22:15:01Z) - Modeling offensive content detection for TikTok [0.0]
本研究では,攻撃内容を含むTikTokデータの収集と解析を行う。
攻撃的なコンテンツ検出のための一連の機械学習とディープラーニングモデルを構築している。
論文 参考訳(メタデータ) (2024-08-29T18:47:41Z) - Leveraging GPT for the Generation of Multi-Platform Social Media Datasets for Research [0.0]
ソーシャルメディアデータセットは、偽情報、影響操作、ソーシャルセンシング、ヘイトスピーチ検出、サイバーいじめ、その他の重要なトピックの研究に不可欠である。
これらのデータセットへのアクセスは、コストとプラットフォーム規制のために制限されることが多い。
本稿では,複数のプラットフォームにまたがって,語彙的および意味論的に関連するソーシャルメディアデータセットを作成するための,大規模言語モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-07-11T09:12:39Z) - The MuSe 2024 Multimodal Sentiment Analysis Challenge: Social Perception and Humor Recognition [64.5207572897806]
マルチモーダル・センティメント・アナリティクス・チャレンジ (MuSe) 2024は、現代の2つのマルチモーダル・インフルエンスと感情分析の問題に対処する。
Social Perception Sub-Challenge (MuSe-Perception)では、参加者は16種類の個人の社会的属性を予測する。
クロスカルカルカルチャー・ヒューモー検出サブチャレンジ(MuSe-Humor)データセットは、Passau Spontaneous Football Coach Humorデータセット上に拡張される。
論文 参考訳(メタデータ) (2024-06-11T22:26:20Z) - Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration [60.535793237063885]
LLM(Large Language Models)の普及は、インターネット上のAIGC(AIGC)の流入につながっている。
AIGCの急増が情報検索システムに与える影響は、まだ明らかな疑問である。
我々は、この混合ソースデータランドスケープでIRモデルを評価するのに適したベンチマークであるCocktailを紹介した。
論文 参考訳(メタデータ) (2024-05-26T12:30:20Z) - iDRAMA-Scored-2024: A Dataset of the Scored Social Media Platform from 2020 to 2023 [22.685953309889825]
Redditの代替プラットフォームであるScoredから大規模なデータセットをリリースしています。
少なくとも58のコミュニティがRedditから移住し、プラットフォームが誕生して以来950以上のコミュニティが誕生した。
私たちは、最先端のモデルによって生成されたデータセットに、すべてのポストの文埋め込みを提供します。
論文 参考訳(メタデータ) (2024-05-16T16:34:03Z) - The DSA Transparency Database: Auditing Self-reported Moderation Actions by Social Media [0.4597131601929317]
データベースの最初の100日間で、EUの8大ソーシャルメディアプラットフォームから提出された353.12万レコードを分析した。
さまざまな分野にわたる政策立案者や学者にとって,本研究は大きな意味を持つ。
論文 参考訳(メタデータ) (2023-12-16T00:02:49Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。