論文の概要: Navigating the Post-API Dilemma | Search Engine Results Pages Present a Biased View of Social Media Data
- arxiv url: http://arxiv.org/abs/2401.15479v4
- Date: Wed, 27 Nov 2024 16:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:04.365612
- Title: Navigating the Post-API Dilemma | Search Engine Results Pages Present a Biased View of Social Media Data
- Title(参考訳): API後ジレンマをナビゲートする
- Authors: Amrit Poudel, Tim Weninger,
- Abstract要約: ソーシャルメディアAPIへのアクセスを中止するという最近の決定は、インターネット研究に有害な影響を及ぼしている。
このデータへのアクセスの欠如は、インターネット研究のポストAPI時代と呼ばれる。
幸いなことに、人気のある検索エンジンは、適切な検索クエリを提供すると、検索結果ページ(SERP)でソーシャルメディアデータをクロール、キャプチャ、サーフェスする手段を持っている。
- 参考スコア(独自算出の注目度): 5.478764356647437
- License:
- Abstract: Recent decisions to discontinue access to social media APIs are having detrimental effects on Internet research and the field of computational social science as a whole. This lack of access to data has been dubbed the Post-API era of Internet research. Fortunately, popular search engines have the means to crawl, capture, and surface social media data on their Search Engine Results Pages (SERP) if provided the proper search query, and may provide a solution to this dilemma. In the present work we ask: does SERP provide a complete and unbiased sample of social media data? Is SERP a viable alternative to direct API-access? To answer these questions, we perform a comparative analysis between (Google) SERP results and nonsampled data from Reddit and Twitter/X. We find that SERP results are highly biased in favor of popular posts; against political, pornographic, and vulgar posts; are more positive in their sentiment; and have large topical gaps. Overall, we conclude that SERP is not a viable alternative to social media API access.
- Abstract(参考訳): ソーシャルメディアAPIへのアクセスを中止するという最近の決定は、インターネット研究や計算社会科学全般に有害な影響を与えている。
このデータへのアクセスの欠如は、インターネット研究のポストAPI時代と呼ばれる。
幸いなことに、人気のある検索エンジンは、適切な検索クエリを提供した場合、検索結果ページ(SERP)上でソーシャルメディアデータをクロール、キャプチャ、サーフェスする手段を持ち、このジレンマの解決策を提供するかもしれない。
SERPはソーシャルメディアデータの完全かつ偏見のないサンプルを提供していますか?
SERPは直接APIアクセスの代替になり得るか?
これらの質問に答えるために、(Google) SERP結果とRedditとTwitter/Xの非サンプルデータの比較分析を行った。
SERPの結果は、政治的、ポルノ的、下品なポストに対する人気ポストに非常に偏りがあり、彼らの感情においてより肯定的であり、大きな話題のギャップがあることに気付きました。
全体として、SERPはソーシャルメディアAPIアクセスの代替として有効なものではないと結論付けている。
関連論文リスト
- A Systematic Mapping Study of Crowd Knowledge Enhanced Software Engineering Research Using Stack Overflow [0.8621608193534838]
すべてのソフトウェアプロフェッショナルの30%が、最も人気のあるQ&AサイトStackOverflow (SO)を毎日訪問している。
SOデータを利用した傾向,含意,影響,今後の研究の可能性を明らかにするためには,系統地図研究が必要である。
我々は384のSOに基づく研究論文を収集し、それらを10の面(テーマ)に分類した。
私たちは、SOが、QuoraやRedditのような人気のあるQ&Aサイトと比較して、SE研究の85%に寄与していることを発見しました。
論文 参考訳(メタデータ) (2024-08-15T03:40:44Z) - A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。
ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。
その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2024-05-24T02:44:14Z) - SMP Challenge: An Overview and Analysis of Social Media Prediction Challenge [63.311045291016555]
ソーシャルメディアの人気予測(SMPP)は、オンライン投稿の今後の人気値を自動予測する重要なタスクである。
本稿では,課題,データ,研究の進展について要約する。
論文 参考訳(メタデータ) (2024-05-17T02:36:14Z) - A Named Entity Recognition and Topic Modeling-based Solution for Locating and Better Assessment of Natural Disasters in Social Media [1.9739821076317217]
ソーシャルメディアのコンテンツは、災害情報学に非常に効果的であることが証明されている。
しかし、データの構造が不整なため、ソーシャルメディアコンテンツにおける災害分析にいくつかの課題が伴う。
災害情報学におけるソーシャルメディアコンテンツの可能性を完全に探求するためには、関連コンテンツへのアクセスと適切な位置情報情報が非常に重要である。
論文 参考訳(メタデータ) (2024-05-01T23:19:49Z) - "I'm in the Bluesky Tonight": Insights from a Year Worth of Social Data [0.18416014644193066]
本稿では,Bluesky Socialのソーシャルインタラクションとユーザ生成コンテンツの大規模かつ高包括的データセットを提案する。
データセットには400万以上のユーザ(すべての登録アカウントの81%)の完全なポスト履歴が含まれており、総投稿数は235万である。
論文 参考訳(メタデータ) (2024-04-29T16:43:39Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Whole Page Unbiased Learning to Rank [59.52040055543542]
アンバイアスド・ラーニング・トゥ・ランク(ULTR)アルゴリズムは、バイアスド・クリックデータを用いたアンバイアスド・ランキングモデルを学ぶために提案される。
本稿では,BALというアルゴリズムをランク付けするバイアス非依存学習を提案する。
実世界のデータセットによる実験結果から,BALの有効性が検証された。
論文 参考訳(メタデータ) (2022-10-19T16:53:08Z) - How does fake news spread? Understanding pathways of disinformation
spread through APIs [1.2691047660244335]
本稿では、ソーシャルメディアプラットフォームが提供するアプリケーションプログラミングインタフェース(API)が、偽情報の拡散を促進する方法について考察する。
まず、公式なソーシャルメディアAPIの状況を調べ、GitHubとGitLabのオープンソースコードリポジトリについて定量的に調査します。
ソーシャルメディアプラットフォーム上で偽情報を拡散するための4段階の枠組みを構築した。
論文 参考訳(メタデータ) (2021-09-27T08:33:37Z) - Diversity-aware Web APIs Recommendation with Compatibility Guarantee [5.9601266637512085]
多様性を意識した互換性駆動型Web APIレコメンデーションアプローチであるDivCARを提案する。
DivCARは、事前構築された相関グラフ上にランダムウォークサンプリング手法を用いて、多様な相関グラフを生成する。
多様な相関グラフを用いて、互換性のあるWeb APIレコメンデーション問題を最小グループSteiner木探索問題としてモデル化する。
論文 参考訳(メタデータ) (2021-08-10T00:20:34Z) - The Matter of Chance: Auditing Web Search Results Related to the 2020
U.S. Presidential Primary Elections Across Six Search Engines [68.8204255655161]
私たちは、Google、Baidu、Bing、DuckDuckGo、Yahoo、Yandexの"US Election"、"Donald trump"、"Joe Biden"、"bernie Sanders"の検索結果を調べます。
その結果, 検索エンジン間の検索結果と, エージェント間の検索結果の相違が有意な差があることが示唆された。
論文 参考訳(メタデータ) (2021-05-03T11:18:19Z) - Conversations with Search Engines: SERP-based Conversational Response
Generation [77.1381159789032]
我々は、検索エンジンと対話するためのパイプラインを開発するために、適切なデータセット、検索・アズ・ア・会話(SaaC)データセットを作成します。
また、このデータセットを用いて、検索エンジンと対話するための最先端パイプライン(Conversations with Search Engines (CaSE))も開発しています。
CaSEは、サポートされたトークン識別モジュールとプリア・アウェア・ポインタージェネレータを導入することで最先端を向上する。
論文 参考訳(メタデータ) (2020-04-29T13:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。