論文の概要: Should we trust web-scraped data?
- arxiv url: http://arxiv.org/abs/2308.02231v1
- Date: Fri, 4 Aug 2023 10:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:24:03.082033
- Title: Should we trust web-scraped data?
- Title(参考訳): Webスクラッドデータを信頼すべきだろうか?
- Authors: Jens Foerderer
- Abstract要約: ウェブ・スクラップ(英語: Web scraping)とは、ウェブサイトにアクセスしてコンテンツをダウンロードする自動化されたコンピュータ・プログラムである。
本稿では、Webスクラッドデータにおけるサンプリングバイアスの3つの源について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing adoption of econometric and machine-learning approaches by
empirical researchers has led to a widespread use of one data collection
method: web scraping. Web scraping refers to the use of automated computer
programs to access websites and download their content. The key argument of
this paper is that na\"ive web scraping procedures can lead to sampling bias in
the collected data. This article describes three sources of sampling bias in
web-scraped data. More specifically, sampling bias emerges from web content
being volatile (i.e., being subject to change), personalized (i.e., presented
in response to request characteristics), and unindexed (i.e., abundance of a
population register). In a series of examples, I illustrate the prevalence and
magnitude of sampling bias. To support researchers and reviewers, this paper
provides recommendations on anticipating, detecting, and overcoming sampling
bias in web-scraped data.
- Abstract(参考訳): 実証的な研究者によるエコノメトリと機械学習のアプローチの採用が増加し、ひとつのデータ収集手法であるWebスクレイピングが広く使われるようになった。
ウェブスクレーピング(英語: web scraping)とは、コンピュータプログラムを自動化してウェブサイトにアクセスし、コンテンツをダウンロードすることを指す。
この論文の重要な論点は、na\"ive web scraping procedureが収集したデータのバイアスをサンプリングする可能性があることである。
本稿では,webスクレイプデータのサンプリングバイアスの3つの源について述べる。
より具体的には、サンプリングバイアスは、webコンテンツが揮発性(すなわち変化の対象となる)、パーソナライズされた(要求特性に応答して提示された)、非インデックス(すなわち人口登録の豊富さ)から生じます。
一連の例では、サンプリングバイアスの頻度と大きさを説明します。
研究者やレビュアーを支援するため,Webスクラッドデータにおけるサンプリングバイアスの予測,検出,克服を推奨する。
関連論文リスト
- Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Cleaner Pretraining Corpus Curation with Neural Web Scraping [42.35771000434907]
本稿では,Webページから一次的かつクリーンなテキストコンテンツを抽出するための,シンプルで高速かつ効果的なNeuScraper(NeuScraper)を提案する。
実験結果から,NeuScraperは20%以上の改善を達成し,ベースラインスクラップラーを上回ることがわかった。
論文 参考訳(メタデータ) (2024-02-22T16:04:03Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Unsupervised Bias Detection in College Student Newspapers [0.0]
本稿では,複雑なアーカイブサイトをスクレイピングするフレームワークを導入し,23,154項目からなる14の学生論文のデータセットを生成する。
このアプローチの利点は、リコンストラクションバイアスよりも比較が低く、キーワードの感情を生成するよりもラベル付きデータが少ないことである。
結果は、政治的に課金された単語と制御された単語に基づいて計算され、どのように結論が導き出されるかを示す。
論文 参考訳(メタデータ) (2023-09-11T06:51:09Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Distributed Subweb Specifications for Traversing the Web [9.424582837721891]
Link Traversal-based Query Processing (ltqp) は理論上興味深いが実用的ではない技術である。
本稿では、データパブリッシャーが興味のある情報源を提案し、データ消費者を関連性のある信頼できるデータへと導くことができるべきだと論じる。
論文 参考訳(メタデータ) (2023-02-28T08:46:04Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Representation Bias in Data: A Survey on Identification and Resolution
Techniques [26.142021257838564]
データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。
データにおける表現バイアスは、歴史的差別から、データ取得と作成方法におけるバイアスのサンプリングまで、さまざまな理由により起こりうる。
本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として同定し,解決する方法についての文献をレビューする。
論文 参考訳(メタデータ) (2022-03-22T16:30:22Z) - Correcting Exposure Bias for Link Recommendation [31.799185352323807]
露出バイアスは、ユーザーが特定の関連項目に体系的に過小評価されているときに生じる。
このバイアスを軽減するために、既知の露光確率を利用する推定器を提案する。
我々の手法は、推奨論文の研究分野においてより多様性をもたらす。
論文 参考訳(メタデータ) (2021-06-13T16:51:41Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。