論文の概要: Beyond time delays: How web scraping distorts measures of online news consumption
- arxiv url: http://arxiv.org/abs/2412.00479v1
- Date: Sat, 30 Nov 2024 13:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:48:09.695627
- Title: Beyond time delays: How web scraping distorts measures of online news consumption
- Title(参考訳): ウェブの破壊は、オンラインニュース消費の計測を歪めるか
- Authors: Roberto Ulloa, Frank Mangold, Felix Schmidt, Judith Gilsbach, Sebastian Stier,
- Abstract要約: ユーザのWebサイト(in-situ)との直接対話中に得られるコンテンツと、参加者のログインした訪問先(ex-situ)のURLを様々な時間遅延でスクラップしたコンテンツとの相違について検討した。
その結果,誤差がニュースカテゴリーに均一に分散されていないことが判明した。
本研究では,ユーザの環境下で直接Webコンテンツをキャプチャするデータ収集手法の必要性を強調した。
- 参考スコア(独自算出の注目度): 0.4706932040794696
- License:
- Abstract: As the exploration of digital behavioral data revolutionizes communication research, understanding the nuances of data collection methodologies becomes increasingly pertinent. This study focuses on one prominent data collection approach, web scraping, and more specifically, its application in the growing field of research relying on web browsing data. We investigate discrepancies between content obtained directly during user interaction with a website (in-situ) and content scraped using the URLs of participants' logged visits (ex-situ) with various time delays (0, 30, 60, and 90 days). We find substantial disparities between the methodologies, uncovering that errors are not uniformly distributed across news categories regardless of classification method (domain, URL, or content analysis). These biases compromise the precision of measurements used in existing literature. The ex-situ collection environment is the primary source of the discrepancies (~33.8%), while the time delays in the scraping process play a smaller role (adding ~6.5 percentage points in 90 days). Our research emphasizes the need for data collection methods that capture web content directly in the user's environment. However, acknowledging its complexities, we further explore strategies to mitigate biases in web-scraped browsing histories, offering recommendations for researchers who rely on this method and laying the groundwork for developing error-correction frameworks.
- Abstract(参考訳): デジタル行動データの探索がコミュニケーション研究に革命をもたらすにつれ、データ収集手法のニュアンスを理解することがますます重要になる。
本研究は,Webブラウジングデータを活用したデータ収集手法,Webスクレイピング,特にWebブラウジングデータを活用した研究分野におけるその応用に焦点を当てた。
ユーザのWebサイト(in-situ)との直接対話中に得られたコンテンツと、参加者のログインした訪問先(ex-situ)のURLをさまざまな時間遅延(0,30,60,90日)でスクラップしたコンテンツとの相違について検討した。
分類法(ドメイン、URL、コンテンツ分析)にかかわらず、エラーがニュースカテゴリに均一に分散されないことが判明した。
これらのバイアスは、既存の文献で用いられる測定の精度を損なう。
元コレクション環境は相違点(~33.8%)の主要な源であり、スクラップ処理の時間遅延は(90日で約6.5ポイント)より小さい役割を担っている。
本研究では,ユーザの環境下で直接Webコンテンツをキャプチャするデータ収集手法の必要性を強調した。
しかし、その複雑さを認識し、Webスクラッド閲覧履歴におけるバイアスを軽減するための戦略をさらに探求し、この手法に頼ってエラー訂正フレームワークを開発する研究者に推奨する。
関連論文リスト
- Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - From Categories to Classifiers: Name-Only Continual Learning by Exploring the Web [118.67589717634281]
継続的な学習はしばしば、非現実的に時間がかかり、実際にコストがかかるという仮定である、広範な注釈付きデータセットの可用性に依存します。
時間とコストの制約により手動のアノテーションが禁止される、名前のみの連続学習と呼ばれる新しいパラダイムを探求する。
提案手法は,広範かつ進化を続けるインターネットを活用して,未処理のウェブ教師付きデータを検索・ダウンロードして画像分類を行う。
論文 参考訳(メタデータ) (2023-11-19T10:43:43Z) - Identification, Impacts, and Opportunities of Three Common Measurement
Considerations when using Digital Trace Data [2.1301560294088318]
スクリーンミクスは、人々がモバイルデバイスと対話するときに得られる個々のスクリーンショットの粒度でメディアの使用を記録する。
1)要約の絡み合い - フォーマットへの露出によってコンテンツへの露出をプロキシすることで生じる一般的な測定誤差、(2)平ら化 - 時間情報を組み込まずにメディアインタラクションのユニークなセグメントを集約する、(3)バンドル。
論文 参考訳(メタデータ) (2023-09-30T00:28:19Z) - RECALL+: Adversarial Web-based Replay for Continual Learning in Semantic
Segmentation [27.308426315113707]
我々は、従来のアプローチ(RECALL)を拡張し、教師なしのWebcrawledデータを活用することで、忘れることに取り組みます。
実験結果から、この拡張アプローチは、特にインクリメンタルシナリオが複数のステップにまたがる場合、顕著な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-09-19T09:50:30Z) - Should we trust web-scraped data? [0.0]
ウェブ・スクラップ(英語: Web scraping)とは、ウェブサイトにアクセスしてコンテンツをダウンロードする自動化されたコンピュータ・プログラムである。
本稿では、Webスクラッドデータにおけるサンプリングバイアスの3つの源について述べる。
論文 参考訳(メタデータ) (2023-08-04T10:07:31Z) - Twitter Referral Behaviours on News Consumption with Ensemble Clustering
of Click-Stream Data in Turkish Media [2.9005223064604078]
本研究は,Twitter のレファレンスに追随するニュース消費パターンを識別するために,組織ウェブサイトにおける読者のクリック活動について調査する。
調査は、ログデータをニュースコンテンツとリンクして洞察を深めることで、幅広い視点に展開されている。
論文 参考訳(メタデータ) (2022-02-04T09:57:13Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Content-Based Detection of Temporal Metadata Manipulation [91.34308819261905]
画像の撮像時間とその内容と地理的位置とが一致しているかどうかを検証するためのエンドツーエンドのアプローチを提案する。
中心となる考え方は、画像の内容、キャプチャ時間、地理的位置が一致する確率を予測するための教師付き一貫性検証の利用である。
我々のアプローチは、大規模なベンチマークデータセットの以前の作業により改善され、分類精度が59.03%から81.07%に向上した。
論文 参考訳(メタデータ) (2021-03-08T13:16:19Z) - Geography-Aware Self-Supervised Learning [79.4009241781968]
異なる特徴により、標準ベンチマークにおけるコントラスト学習と教師あり学習の間には、非自明なギャップが持続していることが示される。
本稿では,リモートセンシングデータの空間的整合性を利用した新しいトレーニング手法を提案する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションにおけるコントラスト学習と教師あり学習のギャップを埋めるものである。
論文 参考訳(メタデータ) (2020-11-19T17:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。