論文の概要: Should we trust web-scraped data?
- arxiv url: http://arxiv.org/abs/2308.02231v1
- Date: Fri, 4 Aug 2023 10:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:24:03.082033
- Title: Should we trust web-scraped data?
- Title(参考訳): Webスクラッドデータを信頼すべきだろうか?
- Authors: Jens Foerderer
- Abstract要約: ウェブ・スクラップ(英語: Web scraping)とは、ウェブサイトにアクセスしてコンテンツをダウンロードする自動化されたコンピュータ・プログラムである。
本稿では、Webスクラッドデータにおけるサンプリングバイアスの3つの源について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing adoption of econometric and machine-learning approaches by
empirical researchers has led to a widespread use of one data collection
method: web scraping. Web scraping refers to the use of automated computer
programs to access websites and download their content. The key argument of
this paper is that na\"ive web scraping procedures can lead to sampling bias in
the collected data. This article describes three sources of sampling bias in
web-scraped data. More specifically, sampling bias emerges from web content
being volatile (i.e., being subject to change), personalized (i.e., presented
in response to request characteristics), and unindexed (i.e., abundance of a
population register). In a series of examples, I illustrate the prevalence and
magnitude of sampling bias. To support researchers and reviewers, this paper
provides recommendations on anticipating, detecting, and overcoming sampling
bias in web-scraped data.
- Abstract(参考訳): 実証的な研究者によるエコノメトリと機械学習のアプローチの採用が増加し、ひとつのデータ収集手法であるWebスクレイピングが広く使われるようになった。
ウェブスクレーピング(英語: web scraping)とは、コンピュータプログラムを自動化してウェブサイトにアクセスし、コンテンツをダウンロードすることを指す。
この論文の重要な論点は、na\"ive web scraping procedureが収集したデータのバイアスをサンプリングする可能性があることである。
本稿では,webスクレイプデータのサンプリングバイアスの3つの源について述べる。
より具体的には、サンプリングバイアスは、webコンテンツが揮発性(すなわち変化の対象となる)、パーソナライズされた(要求特性に応答して提示された)、非インデックス(すなわち人口登録の豊富さ)から生じます。
一連の例では、サンプリングバイアスの頻度と大きさを説明します。
研究者やレビュアーを支援するため,Webスクラッドデータにおけるサンプリングバイアスの予測,検出,克服を推奨する。
関連論文リスト
- How Unique is Whose Web Browser? The role of demographics in browser fingerprinting among US users [50.699390248359265]
ブラウザのフィンガープリントは、クッキーを使わずとも、Web上のユーザを識別し、追跡するために利用できる。
この技術と結果として生じるプライバシーリスクは10年以上にわたって研究されてきた。
我々は、さらなる研究を可能にするファースト・オブ・ザ・キンド・データセットを提供する。
論文 参考訳(メタデータ) (2024-10-09T14:51:58Z) - BiasScanner: Automatic Detection and Classification of News Bias to Strengthen Democracy [4.248837664338829]
BiasScannerは、ニュース消費者がオンラインで読んでいるニュース記事を精査することで、民主主義を強化することを目指している。
これには、ニュース記事のバイアスのある文を識別するサーバーサイドで事前訓練された大きな言語モデルと、フロントエンドのWebブラウザプラグインが含まれている。
論文 参考訳(メタデータ) (2024-07-15T15:42:22Z) - AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。
既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。
本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:59:44Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Cleaner Pretraining Corpus Curation with Neural Web Scraping [39.97459187762505]
本稿では,Webページから一次的かつクリーンなテキストコンテンツを抽出するための,シンプルで高速かつ効果的なNeuScraper(NeuScraper)を提案する。
実験結果から,NeuScraperは20%以上の改善を達成し,ベースラインスクラップラーを上回ることがわかった。
論文 参考訳(メタデータ) (2024-02-22T16:04:03Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Unsupervised Bias Detection in College Student Newspapers [0.0]
本稿では,複雑なアーカイブサイトをスクレイピングするフレームワークを導入し,23,154項目からなる14の学生論文のデータセットを生成する。
このアプローチの利点は、リコンストラクションバイアスよりも比較が低く、キーワードの感情を生成するよりもラベル付きデータが少ないことである。
結果は、政治的に課金された単語と制御された単語に基づいて計算され、どのように結論が導き出されるかを示す。
論文 参考訳(メタデータ) (2023-09-11T06:51:09Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Representation Bias in Data: A Survey on Identification and Resolution
Techniques [26.142021257838564]
データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。
データにおける表現バイアスは、歴史的差別から、データ取得と作成方法におけるバイアスのサンプリングまで、さまざまな理由により起こりうる。
本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として同定し,解決する方法についての文献をレビューする。
論文 参考訳(メタデータ) (2022-03-22T16:30:22Z) - Correcting Exposure Bias for Link Recommendation [31.799185352323807]
露出バイアスは、ユーザーが特定の関連項目に体系的に過小評価されているときに生じる。
このバイアスを軽減するために、既知の露光確率を利用する推定器を提案する。
我々の手法は、推奨論文の研究分野においてより多様性をもたらす。
論文 参考訳(メタデータ) (2021-06-13T16:51:41Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。