論文の概要: Incorrect Data in the Widely Used Inside Airbnb Dataset
- arxiv url: http://arxiv.org/abs/2007.03019v2
- Date: Tue, 1 Dec 2020 06:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 03:51:28.400498
- Title: Incorrect Data in the Widely Used Inside Airbnb Dataset
- Title(参考訳): Airbnbのデータセットで広く使われている不正なデータ
- Authors: Abdulkareem Alsudais
- Abstract要約: Airbnb(IA)内部では、Airbnb.comのユーザが投稿した場所やレビューからデータを収集する。
このノートはデータセットを調べ、データセットに追加された誤ったデータの問題を説明します。
発見は、Airbnbが実装した新機能によって、不正なデータが発生したことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several recently published papers in Decision Support Systems discussed
issues related to data quality in Information Systems research. In this short
research note, I build on the work introduced in these papers and document two
data quality issues discovered in a large open dataset commonly used in
research. Inside Airbnb (IA) collects data from places and reviews as posted by
users of Airbnb.com. Visitors can effortlessly download data collected by IA
for several locations around the globe. While the dataset is widely used in
academic research, no thorough investigation of the dataset and its validity
has been conducted. This note examines the dataset and explains an issue of
incorrect data added to the dataset. Findings suggest that this issue can be
attributed to systemic errors in the data collection process. The results
suggest that the use of unverified open datasets can be problematic, although
the discoveries presented in this work may not be significant enough to
challenge all published research that used the IA dataset. Additionally,
findings indicate that the incorrect data happens because of a new feature
implemented by Airbnb. Thus, unless changes are made, it is likely that the
consequences of this issue will only become more severe. Finally, this note
explores why reproducibility is a problem when two different releases of the
dataset are compared.
- Abstract(参考訳): 最近発表されたDecision Support Systemsの論文では、情報システム研究におけるデータ品質に関する問題を論じている。
この短い研究ノートでは、これらの論文で導入された研究に基づいて、研究でよく使われる大規模なオープンデータセットで発見された2つのデータ品質の問題を文書化します。
airbnb(ia)はairbnb.comのユーザーが投稿した場所やレビューからデータを収集する。
訪問者は、IAが収集したデータを世界中のいくつかの場所でダウンロードすることができる。
データセットは学術研究で広く使われているが、データセットの徹底的な調査は行われていない。
このノートはデータセットを調べ、データセットに追加された誤ったデータの問題を説明します。
調査結果から、この問題はデータ収集プロセスのシステムエラーに起因している可能性が示唆されている。
この結果は、未検証のオープンデータセットの使用が問題となる可能性があることを示唆するが、この研究で示された発見は、IAデータセットを使用したすべての研究に挑戦するには十分ではないかもしれない。
さらに、Airbnbが実装した新機能によって、誤ったデータが発生することが判明した。
したがって、変更がなければ、この問題の結果はより深刻にしかならない可能性が高い。
最後に、データセットの2つの異なるリリースを比較したとき、再現性が問題となる理由について説明する。
関連論文リスト
- A Guide to Misinformation Detection Datasets [5.673951146506489]
このガイドは、高品質なデータを取得し、より効果的な評価を行うためのロードマップを提供することを目的としている。
すべてのデータセットやその他のアーティファクトはhttps://misinfo-datasets.complexdatalab.com/.comで入手できる。
論文 参考訳(メタデータ) (2024-11-07T18:47:39Z) - Introducing a Comprehensive, Continuous, and Collaborative Survey of Intrusion Detection Datasets [2.7082111912355877]
COMIDDSは、侵入検出データセットを前例のないレベルで包括的に調査する試みである。
実際のデータサンプルや関連する出版物へのリンクを含む、各データセットに関する構造化されたクリティカルな情報を提供する。
論文 参考訳(メタデータ) (2024-08-05T14:40:41Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - The Impact of Data Persistence Bias on Social Media Studies [0.0]
データ永続化とそれが導入するバイアスを、議論を呼んでいるトピック、トレンドトピック、問題のフレーミングという3つのタイプのデータセットで分析します。
議論の的になっているデータセットは、データ永続化に悩まされがちであり、再コンパイル時に政治的左派に傾いていることがわかりました。
全体として、適切なユーザによって宣伝されたトピックは、データ永続性に悩まされる傾向にあることが分かりました。
論文 参考訳(メタデータ) (2023-03-02T01:51:28Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Retiring Adult: New Datasets for Fair Machine Learning [47.27417042497261]
UCIアダルトは、多くのアルゴリズム的公正な介入の開発と比較の基礎として機能している。
UCIアダルトデータのスーパーセットを米国国勢調査資料から再構築し、その外部妥当性を制限するUCIアダルトデータセットの慣用性を明らかにする。
私たちの主な貢献は、公正な機械学習の研究のために既存のデータエコシステムを拡張する、一連の新しいデータセットです。
論文 参考訳(メタデータ) (2021-08-10T19:19:41Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Data Combination for Problem-solving: A Case of an Open Data Exchange
Platform [2.9038508461575976]
ビッグデータと学際データの組み合わせでは、多くの変数を持つ大規模データを使用することが期待されている。
その結果,少数の変数を持つデータセットであっても,問題解決のためのソリューションの提案に頻繁に使用されることがわかった。
本研究の結果は、複数のデータセットや変数を含む問題解決のためのデータ組み合わせの背後にあるメカニズムに光を当てた。
論文 参考訳(メタデータ) (2020-12-21T23:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。