論文の概要: Web Scraping for Research: Legal, Ethical, Institutional, and Scientific Considerations
- arxiv url: http://arxiv.org/abs/2410.23432v2
- Date: Thu, 19 Dec 2024 14:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:48.784721
- Title: Web Scraping for Research: Legal, Ethical, Institutional, and Scientific Considerations
- Title(参考訳): Web Scraping for Research: Legal, Ethical, Institutional, and Scientific considerations
- Authors: Megan A. Brown, Andrew Gruen, Gabe Maldoff, Solomon Messing, Zeve Sanderson, Michael Zimmer,
- Abstract要約: 本稿では,アメリカの研究者を対象とした社会科学研究におけるWebスクレイピングの包括的枠組みを提案する。
我々は、研究者がスクラップを通じてデータにアクセスし、収集し、保存し、共有する方法に影響を及ぼす現在の規制環境の概要を述べる。
次に、科学的に合法的で倫理的な方法でスクレーピングを行うための推奨事項を研究者に提供する。
- 参考スコア(独自算出の注目度): 11.851771490297693
- License:
- Abstract: Scientists across disciplines often use data from the internet to conduct research, generating valuable insights about human behavior. However, as generative AI relying on massive text corpora becomes increasingly valuable, platforms have greatly restricted access to data through official channels. As a result, researchers will likely engage in more web scraping to collect data, introducing new challenges and concerns for researchers. This paper proposes a comprehensive framework for web scraping in social science research for U.S.-based researchers, examining the legal, ethical, institutional, and scientific factors that researchers should consider when scraping the web. We present an overview of the current regulatory environment impacting when and how researchers can access, collect, store, and share data via scraping. We then provide researchers with recommendations to conduct scraping in a scientifically legitimate and ethical manner. We aim to equip researchers with the relevant information to mitigate risks and maximize the impact of their research amidst this evolving data access landscape.
- Abstract(参考訳): 専門分野の科学者は、インターネットからのデータを使って研究を行い、人間の行動に関する貴重な洞察を生み出します。
しかし、大量のテキストコーパスに依存した生成AIの価値が高まっているため、プラットフォームは公式チャネルを通じてのデータへのアクセスを著しく制限している。
その結果、研究者はデータ収集のためにより多くのウェブスクレイピングに従事し、研究者に新たな課題や懸念をもたらす可能性が高い。
本稿では, 社会科学研究におけるWebスクレイピングの包括的枠組みを提案し, 研究者がWebスクレイピングにおいて考慮すべき法的, 倫理的, 制度的, 科学的要因について検討する。
我々は、研究者がスクラップを通じてデータにアクセスし、収集し、保存し、共有する方法に影響を及ぼす現在の規制環境の概要を述べる。
次に、科学的に合法的で倫理的な方法でスクレーピングを行うための推奨事項を研究者に提供する。
この進化するデータアクセス環境の中で、リスクを軽減し、研究の影響を最大化するために、研究者に関連情報を供給することを目指している。
関連論文リスト
- A Survey of Privacy-Preserving Model Explanations: Privacy Risks, Attacks, and Countermeasures [50.987594546912725]
AIのプライバシと説明可能性に関する研究が増えているにもかかわらず、プライバシを保存するモデル説明にはほとんど注意が払われていない。
本稿では,モデル説明に対するプライバシ攻撃とその対策に関する,最初の徹底的な調査を紹介する。
論文 参考訳(メタデータ) (2024-03-31T12:44:48Z) - Data Science for Social Good [2.8621556092850065]
本稿では,「データ・サイエンス・フォー・ソーシャル・グッド」(DSSG)研究の枠組みについて述べる。
本研究では,情報システムにおけるDSSG研究の質を実証的に示すために,文献の分析を行う。
この記事と特別号が今後のDSSG研究を刺激することを期待している。
論文 参考訳(メタデータ) (2023-11-02T15:40:20Z) - A Responsive Framework for Research Portals Data using Semantic Web
Technology [0.6798775532273751]
本研究の目的は、研究ポータルデータのセマンティックな組織化のためのフレームワークを設計することでこの問題に対処することである。
このフレームワークは、Microsoft AcademicとIEEE Xploreという2つの特定の研究ポータルから情報を抽出することに焦点を当てている。
論文 参考訳(メタデータ) (2023-06-20T16:12:33Z) - The ethical ambiguity of AI data enrichment: Measuring gaps in research
ethics norms and practices [2.28438857884398]
この研究は、AI研究とデータ豊か化のために、同等な研究倫理要件と規範がどのように開発されたか、そしてどの程度まで調査する。
主要なAI会場は、人間のデータ収集のためのプロトコルを確立し始めているが、これらは矛盾なく著者が追従している。
論文 参考訳(メタデータ) (2023-06-01T16:12:55Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - Human-Centered Responsible Artificial Intelligence: Current & Future
Trends [76.94037394832931]
近年、CHIコミュニティは人間中心のレスポンシブル人工知能の研究において著しい成長を遂げている。
この研究はすべて、人権と倫理に根ざしたまま、人類に利益をもたらすAIを開発し、AIの潜在的な害を減らすことを目的としている。
本研究グループでは,これらのトピックに関心のある学術・産業の研究者を集結させ,現在の研究動向と今後の研究動向を地図化することを目的とする。
論文 参考訳(メタデータ) (2023-02-16T08:59:42Z) - How Data Scientists Review the Scholarly Literature [4.406926847270567]
データサイエンティストの文献レビューの実践について検討する。
データサイエンスは、論文の指数的な増加を示す分野である。
これらの科学者が直面する具体的な実践や課題について、事前の研究は行われていない。
論文 参考訳(メタデータ) (2023-01-10T03:53:05Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - Yes-Yes-Yes: Donation-based Peer Reviewing Data Collection for ACL
Rolling Review and Beyond [58.71736531356398]
本稿では、ピアレビューデータについて詳細な議論を行い、ピアレビューデータ収集のための倫理的・法的デシダータの概要を述べるとともに、最初の継続的な寄付ベースのデータ収集ワークフローを提案する。
本稿では、ACL Rolling Reviewにおいて、このワークフローの現在進行中の実装について報告し、新たに収集したデータから得られた最初の洞察を提供する。
論文 参考訳(メタデータ) (2022-01-27T11:02:43Z) - Learnings from Frontier Development Lab and SpaceML -- AI Accelerators
for NASA and ESA [57.06643156253045]
AIとML技術による研究は、しばしば非同期の目標とタイムラインを備えたさまざまな設定で動作します。
我々は、NASAとESAの民間パートナーシップの下で、AIアクセラレータであるFrontier Development Lab(FDL)のケーススタディを実行する。
FDL研究は、AI研究の責任ある開発、実行、普及に基礎を置く原則的な実践に従う。
論文 参考訳(メタデータ) (2020-11-09T21:23:03Z) - Ethical issues with using Internet of Things devices in citizen science
research: A scoping review [1.933681537640272]
この章では、市民科学者とモノのインターネット(Internet of Things)デバイスの両方を活用する科学研究のスコーピングレビューを公開している。
筆者らは,研究過程で遭遇した倫理的問題について,少なくとも短時間の議論を含む研究を選択した。
この分析に続き、市民科学者とIoTデバイスを研究に統合したい研究者に推奨する。
論文 参考訳(メタデータ) (2020-07-18T12:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。