Fugu-MT 論文翻訳(概要): Should we trust web-scraped data?

論文の概要: Should we trust web-scraped data?

arxiv url: http://arxiv.org/abs/2308.02231v1
Date: Fri, 4 Aug 2023 10:07:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-07 13:24:03.082033
Title: Should we trust web-scraped data?
Title（参考訳）: Webスクラッドデータを信頼すべきだろうか?
Authors: Jens Foerderer
Abstract要約: ウェブ・スクラップ(英語: Web scraping)とは、ウェブサイトにアクセスしてコンテンツをダウンロードする自動化されたコンピュータ・プログラムである。本稿では、Webスクラッドデータにおけるサンプリングバイアスの3つの源について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing adoption of econometric and machine-learning approaches by empirical researchers has led to a widespread use of one data collection method: web scraping. Web scraping refers to the use of automated computer programs to access websites and download their content. The key argument of this paper is that na\"ive web scraping procedures can lead to sampling bias in the collected data. This article describes three sources of sampling bias in web-scraped data. More specifically, sampling bias emerges from web content being volatile (i.e., being subject to change), personalized (i.e., presented in response to request characteristics), and unindexed (i.e., abundance of a population register). In a series of examples, I illustrate the prevalence and magnitude of sampling bias. To support researchers and reviewers, this paper provides recommendations on anticipating, detecting, and overcoming sampling bias in web-scraped data.
Abstract（参考訳）: 実証的な研究者によるエコノメトリと機械学習のアプローチの採用が増加し、ひとつのデータ収集手法であるWebスクレイピングが広く使われるようになった。ウェブスクレーピング(英語: web scraping)とは、コンピュータプログラムを自動化してウェブサイトにアクセスし、コンテンツをダウンロードすることを指す。この論文の重要な論点は、na\"ive web scraping procedureが収集したデータのバイアスをサンプリングする可能性があることである。本稿では,webスクレイプデータのサンプリングバイアスの3つの源について述べる。より具体的には、サンプリングバイアスは、webコンテンツが揮発性(すなわち変化の対象となる)、パーソナライズされた(要求特性に応答して提示された)、非インデックス(すなわち人口登録の豊富さ)から生じます。一連の例では、サンプリングバイアスの頻度と大きさを説明します。研究者やレビュアーを支援するため,Webスクラッドデータにおけるサンプリングバイアスの予測,検出,克服を推奨する。

関連論文リスト

Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models [107.24906866038431]
我々は,低品質な文書を学習に役立てるために, guIded Rewrite で Web をリサイクルする REWIRE を提案する。高品質な原文と書き直しテキストが混在すると,22のタスクでそれぞれ1.0,1.3,2.5のパーセンテージが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T07:12:12Z)
Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。検索者は文書の優先順位の過度な開始、短い文書、繰り返しのエンティティ、リテラルマッチングといった表面的なパターンにしばしば依存していることを示す。これらのバイアスは、検索優先の文書がLLMを誤解させるおそれのあるRAGのような下流アプリケーションに直接的な結果をもたらすことを示す。
論文参考訳（メタデータ） (2025-03-06T23:23:13Z)
Multi-Record Web Page Information Extraction From News Websites [83.88591755871734]
本稿では,多数のレコードを含むWebページから情報を抽出する問題に焦点をあてる。このギャップに対処するため、リストページ用に設計された大規模なオープンアクセスデータセットを作成しました。我々のデータセットには13,120のWebページとニュースリストがあり、スケールと複雑さの両方で既存のデータセットをはるかに上回っている。
論文参考訳（メタデータ） (2025-02-20T15:05:00Z)
Beyond time delays: How web scraping distorts measures of online news consumption [0.4706932040794696]
ユーザのWebサイト(in-situ)との直接対話中に得られるコンテンツと、参加者のログインした訪問先(ex-situ)のURLを様々な時間遅延でスクラップしたコンテンツとの相違について検討した。その結果,誤差がニュースカテゴリーに均一に分散されていないことが判明した。本研究では,ユーザの環境下で直接Webコンテンツをキャプチャするデータ収集手法の必要性を強調した。
論文参考訳（メタデータ） (2024-11-30T13:36:48Z)
How Unique is Whose Web Browser? The role of demographics in browser fingerprinting among US users [50.699390248359265]
ブラウザのフィンガープリントは、クッキーを使わずとも、Web上のユーザを識別し、追跡するために利用できる。この技術と結果として生じるプライバシーリスクは10年以上にわたって研究されてきた。我々は、さらなる研究を可能にするファースト・オブ・ザ・キンド・データセットを提供する。
論文参考訳（メタデータ） (2024-10-09T14:51:58Z)
BiasScanner: Automatic Detection and Classification of News Bias to Strengthen Democracy [4.248837664338829]
BiasScannerは、ニュース消費者がオンラインで読んでいるニュース記事を精査することで、民主主義を強化することを目指している。これには、ニュース記事のバイアスのある文を識別するサーバーサイドで事前訓練された大きな言語モデルと、フロントエンドのWebブラウザプラグインが含まれている。
論文参考訳（メタデータ） (2024-07-15T15:42:22Z)
AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation [54.17246674188208]
Webスクレイピングは、Webサイトからデータを抽出し、自動データ収集を可能にし、データ分析機能を強化し、手動のデータ入力作業を最小化する強力なテクニックである。既存の手法では、ラッパーベースの手法は、新しいウェブサイトで直面する場合、適応性とスケーラビリティの制限に悩まされる。本稿では,大規模言語モデル(LLM)を用いたWebスクレイパー生成のパラダイムを紹介し,多様なWeb環境をより効率的に処理できる2段階フレームワークであるAutoScraperを提案する。
論文参考訳（メタデータ） (2024-04-19T09:59:44Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
Cleaner Pretraining Corpus Curation with Neural Web Scraping [39.97459187762505]
本稿では,Webページから一次的かつクリーンなテキストコンテンツを抽出するための,シンプルで高速かつ効果的なNeuScraper(NeuScraper)を提案する。実験結果から,NeuScraperは20%以上の改善を達成し,ベースラインスクラップラーを上回ることがわかった。
論文参考訳（メタデータ） (2024-02-22T16:04:03Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
Unsupervised Bias Detection in College Student Newspapers [0.0]
本稿では,複雑なアーカイブサイトをスクレイピングするフレームワークを導入し,23,154項目からなる14の学生論文のデータセットを生成する。このアプローチの利点は、リコンストラクションバイアスよりも比較が低く、キーワードの感情を生成するよりもラベル付きデータが少ないことである。結果は、政治的に課金された単語と制御された単語に基づいて計算され、どのように結論が導き出されるかを示す。
論文参考訳（メタデータ） (2023-09-11T06:51:09Z)
Harnessing the Power of Text-image Contrastive Models for Automatic Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文参考訳（メタデータ） (2023-04-19T02:53:59Z)
Representation Bias in Data: A Survey on Identification and Resolution Techniques [26.142021257838564]
データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。データにおける表現バイアスは、歴史的差別から、データ取得と作成方法におけるバイアスのサンプリングまで、さまざまな理由により起こりうる。本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として同定し,解決する方法についての文献をレビューする。
論文参考訳（メタデータ） (2022-03-22T16:30:22Z)
Correcting Exposure Bias for Link Recommendation [31.799185352323807]
露出バイアスは、ユーザーが特定の関連項目に体系的に過小評価されているときに生じる。このバイアスを軽減するために、既知の露光確率を利用する推定器を提案する。我々の手法は、推奨論文の研究分野においてより多様性をもたらす。
論文参考訳（メタデータ） (2021-06-13T16:51:41Z)
Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文参考訳（メタデータ） (2021-04-20T17:16:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。