論文の概要: Auditing Meta and TikTok Research API Data Access under Article 40(12) of the Digital Services Act
- arxiv url: http://arxiv.org/abs/2601.12390v1
- Date: Sun, 18 Jan 2026 12:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.609263
- Title: Auditing Meta and TikTok Research API Data Access under Article 40(12) of the Digital Services Act
- Title(参考訳): デジタルサービス法第40条(12)に基づくメタデータ及びTikTokリサーチAPIデータアクセスの監査
- Authors: Luka Bekavac, Simon Mayer,
- Abstract要約: 本稿では、プラットフォームリサーチAPIから得られたデータと、同一プラットフォームのユーザ可視公開情報環境(PIE)に関するデータを比較することで、研究アクセスモダリティの体系的な監査を行う。
本研究は,3種類のプラットフォームを具体化する機構,スコープ狭化,メタデータのストリッピング,運用上の制約による系統的なデータ損失を示す。
デジタルサービス法(DSA)に基づくシステムリスクの有意義かつ独立した監査を支援するには,MetaおよびTikTok Research APIの現在の形態は不十分である,と我々は結論付けている。
- 参考スコア(独自算出の注目度): 8.348593305367523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Article 40(12) of the Digital Services Act (DSA) requires Very Large Online Platforms (VLOPs) to provide vetted researchers with access to publicly accessible data. While prior work has identified shortcomings of platform-provided data access mechanisms, existing research has not quantitatively assessed data quality and completeness in Research APIs across platforms, nor systematically mapped how current access provisions fall short. This paper presents a systematic audit of research access modalities by comparing data obtained through platform Research APIs with data collected about the same platforms' user-visible public information environment (PIE). Focusing on two major platform APIs, the TikTok Research API and the Meta Content Library, we reconstruct full information feeds for two controlled sockpuppet accounts during two election periods and benchmark these against the data retrievable for the same posts through the corresponding Research APIs. Our findings show systematic data loss through three classes of platform-imposed mechanisms: scope narrowing, metadata stripping, and operational restrictions. Together, these mechanisms implement overlapping filters that exclude large portions of the platform PIE (up to approximately 50 percent), strip essential contextual metadata (up to approximately 83 percent), and impose severe technical constraints for researchers (down to approximately 1000 requests per day). Viewed through a data quality lens, these filters primarily undermine completeness, resulting in a structurally biased representation of platform activity. We conclude that, in their current form, the Meta and TikTok Research APIs fall short of supporting meaningful, independent auditing of systemic risks as envisioned under the DSA.
- Abstract(参考訳): デジタルサービス法(DSA)第40条(12)は、精査された研究者に公開データへのアクセスを提供するために、非常に大規模なオンラインプラットフォーム(VLOP)を必要とする。
これまでの研究では、プラットフォームが提供するデータアクセスメカニズムの欠点が特定されているが、既存の研究では、プラットフォーム間のリサーチAPIにおけるデータ品質と完全性を定量的に評価していない。
本稿では,プラットフォームリサーチAPIを用いて得られたデータと,同一プラットフォームのユーザ可視公開情報環境(PIE)に関するデータを比較することで,研究アクセスモダリティの体系的な監査を行う。
TikTok Research APIとMeta Content Libraryという2つの主要なプラットフォームAPIに注目して、2つの選挙期間中に2つのコントロールされたsockpuppetアカウントの完全な情報フィードを再構築し、対応するResearch APIを通じて同じ投稿に対して検索可能なデータに対してベンチマークする。
本研究は,3種類のプラットフォームを具体化する機構,スコープ狭化,メタデータのストリッピング,運用上の制約による系統的なデータ損失を示す。
これらのメカニズムは重なり合うフィルタを実装し、プラットフォームPIEの大部分(最大50%)を除外し、重要なコンテキストメタデータを削除し(最大83%)、研究者に厳しい技術的制約を課す(最大1日1000リクエストまで)。
データ品質のレンズを通して見ると、これらのフィルタは主に完全性を損なう。
結論として,現行のMetaおよびTikTok Research APIは,DSAが想定するシステムリスクの有意義かつ独立した監査を支援するには不十分である。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - Detecting and Fixing API Misuses of Data Science Libraries Using Large Language Models [0.6958509696068848]
本稿では,データサイエンスライブラリのAPI誤用を検出し,修正するためのLCMベースのアプローチであるDSCHECKERを紹介する。
APIの誤用の検出と修正に有用な2つの重要な情報、すなわちAPIディレクティブとデータ情報を特定します。
ドシェッカー剤は48.65パーセントのF1スコアを検出でき、誤用の39.47パーセントを修正している。
論文 参考訳(メタデータ) (2025-09-29T18:30:02Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - TikTok's Research API: Problems Without Explanations [2.06242362470764]
TikTokは2023年7月にヨーロッパでResearch APIへのアクセスを拡大した。
この拡張にもかかわらず、提供されたデータには顕著な制限と不整合が持続する。
APIデータは不完全であり、データドキュメンテーションを扱う際には信頼できない。
論文 参考訳(メタデータ) (2025-06-11T13:50:06Z) - Post-Post-API Age: Studying Digital Platforms in Scant Data Access Times [5.997153455641738]
API後の時代」は、プラットフォームの透明性の向上と、デジタルプラットフォームに関する包括的な研究の新たな機会に対する楽観を喚起した。
しかし、プラットフォームが実際に適切なデータアクセスを提供するかどうかは不明だ。
以上の結果から,ソーシャルメディアデータにアクセスする上で大きな課題が浮かび上がっている。
これらの課題は、データアクセスにおける既存の制度的、地域的、財政的不平等を悪化させてきた。
論文 参考訳(メタデータ) (2025-05-15T00:47:06Z) - The Great Data Standoff: Researchers vs. Platforms Under the Digital Services Act [9.275892768167122]
我々は2024年のルーマニア大統領選挙の干渉事件に焦点を当てている。
これは欧州委員会によるシステム的リスク調査を誘発するこの種のイベントとしては初めてである。
この事件を解析することにより、選挙に関連したシステムリスクを理解して、実践的な研究課題を探求することができる。
論文 参考訳(メタデータ) (2025-05-02T09:00:19Z) - A Comprehensive Survey on Imbalanced Data Learning [56.65067795190842]
不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。
本調査は,様々な実世界のデータ形式を体系的に分析する。
さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
論文 参考訳(メタデータ) (2025-02-13T04:53:17Z) - Multi-Platform Aggregated Dataset of Online Communities (MADOC) [64.45797970830233]
MADOCはBluesky、Koo、Reddit、Voat(2012-2024)のデータを集め、標準化している。
このデータセットは、標準化されたインタラクション記録と感情分析を通じて、プラットフォーム間の有害な振る舞いの進化の比較研究を可能にする。
論文 参考訳(メタデータ) (2025-01-22T14:02:11Z) - Having your Privacy Cake and Eating it Too: Platform-supported Auditing
of Social Media Algorithms for Public Interest [70.02478301291264]
ソーシャルメディアプラットフォームは、情報や機会へのアクセスをキュレートするので、公衆の言論を形成する上で重要な役割を果たす。
これまでの研究では、これらのアルゴリズムが偏見や差別的な結果をもたらすことを示すためにブラックボックス法が用いられてきた。
本稿では,提案法の目標を満たすプラットフォーム支援型監査手法を提案する。
論文 参考訳(メタデータ) (2022-07-18T17:32:35Z) - Data Mining with Big Data in Intrusion Detection Systems: A Systematic
Literature Review [68.15472610671748]
クラウドコンピューティングは、複雑で高性能でスケーラブルな計算のために、強力で必要不可欠な技術になっている。
データ生成の迅速化とボリュームは、データ管理とセキュリティに重大な課題をもたらし始めている。
ビッグデータ設定における侵入検知システム(IDS)の設計と展開が重要視されている。
論文 参考訳(メタデータ) (2020-05-23T20:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。