Fugu-MT 論文翻訳(概要): Web Scraping for Research: Legal, Ethical, Institutional, and Scientific Considerations

論文の概要: Web Scraping for Research: Legal, Ethical, Institutional, and Scientific Considerations

arxiv url: http://arxiv.org/abs/2410.23432v1
Date: Wed, 30 Oct 2024 20:20:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.561892
Title: Web Scraping for Research: Legal, Ethical, Institutional, and Scientific Considerations
Title（参考訳）: Web Scraping for Research: Legal, Ethical, Institutional, and Scientific considerations
Authors: Megan A. Brown, Andrew Gruen, Gabe Maldoff, Solomon Messing, Zeve Sanderson, Michael Zimmer,
Abstract要約: 本稿では,アメリカの研究者を対象とした社会科学研究におけるWebスクレイピングの包括的枠組みを提案する。我々は、研究者がスクラップを通じてデータにアクセスし、収集し、保存し、共有する方法に影響を及ぼす現在の規制環境の概要を述べる。次に、科学的に合法的で倫理的な方法でスクレーピングを行うための推奨事項を研究者に提供する。
参考スコア（独自算出の注目度）: 11.851771490297693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scientists across disciplines often use data from the internet to conduct research, generating valuable insights about human behavior. However, as generative AI relying on massive text corpora becomes increasingly valuable, platforms have greatly restricted access to data through official channels. As a result, researchers will likely engage in more web scraping to collect data, introducing new challenges and concerns for researchers. This paper proposes a comprehensive framework for web scraping in social science research for U.S.-based researchers, examining the legal, ethical, institutional, and scientific factors that researchers should consider when scraping the web. We present an overview of the current regulatory environment impacting when and how researchers can access, collect, store, and share data via scraping. We then provide researchers with recommendations to conduct scraping in a scientifically legitimate and ethical manner. We aim to equip researchers with the relevant information to mitigate risks and maximize the impact of their research amidst this evolving data access landscape.
Abstract（参考訳）: 専門分野の科学者は、インターネットからのデータを使って研究を行い、人間の行動に関する貴重な洞察を生み出します。しかし、大量のテキストコーパスに依存した生成AIの価値が高まっているため、プラットフォームは公式チャネルを通じてのデータへのアクセスを著しく制限している。その結果、研究者はデータ収集のためにより多くのウェブスクレイピングに従事し、研究者に新たな課題や懸念をもたらす可能性が高い。本稿では, 社会科学研究におけるWebスクレイピングの包括的枠組みを提案し, 研究者がWebスクレイピングにおいて考慮すべき法的, 倫理的, 制度的, 科学的要因について検討する。我々は、研究者がスクラップを通じてデータにアクセスし、収集し、保存し、共有する方法に影響を及ぼす現在の規制環境の概要を述べる。次に、科学的に合法的で倫理的な方法でスクレーピングを行うための推奨事項を研究者に提供する。この進化するデータアクセス環境の中で、リスクを軽減し、研究の影響を最大化するために、研究者に関連情報を供給することを目指している。

関連論文リスト

PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR [64.22412492998754]
我々は,1600万件のバイオメディカルペーパーを要約した検索コーパスを公開し,PaperSearchQAと呼ばれるファクトイックなQAデータセットを構築した。我々は,この環境における検索エージェントを訓練し,非RL検索ベースラインを上回ります。我々のデータ生成方法はスケーラブルで、他の科学領域にも容易に拡張できます。
論文参考訳（メタデータ） (2026-01-26T06:46:16Z)
Navigating the Ethics of Internet Measurement: Researchers' Perspectives from a Case Study in the EU [0.7964501839324883]
プライバシーと同意の問題、意図しない害の可能性、セキュリティと説明責任との透明性のバランス、不確実な倫理的境界、倫理的レビュープロセスのハードルである。研究者は、倫理的要件は機関、司法、会議によって異なっており、倫理審査委員会はインターネット測定研究を評価するための技術知識を欠いていることが多い。
論文参考訳（メタデータ） (2025-11-13T15:29:19Z)
From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文参考訳（メタデータ） (2025-06-23T17:27:19Z)
SoK: Advances and Open Problems in Web Tracking [71.54586748169943]
Webトラッキングは、パーソナライズされた広告とコンバージョン追跡を可能にする、広範かつ不透明なプラクティスである。 Webトラッキングは、広告業界の変化、ブラウザによるアンチトラッキング対策の導入、新たなプライバシー規制の実施などによって、かつての世代の変革が進んでいる。このシステム化・オブ・ナレッジ(SoK)は、この幅広い研究を統合することを目的としており、近代的で急速に進化するWebトラッキングのランドスケープを形成するための技術的なメカニズム、対策、および規制の包括的概要を提供する。
論文参考訳（メタデータ） (2025-06-16T23:30:54Z)
Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文参考訳（メタデータ） (2025-02-07T18:26:45Z)
A Survey of Privacy-Preserving Model Explanations: Privacy Risks, Attacks, and Countermeasures [50.987594546912725]
AIのプライバシと説明可能性に関する研究が増えているにもかかわらず、プライバシを保存するモデル説明にはほとんど注意が払われていない。本稿では,モデル説明に対するプライバシ攻撃とその対策に関する,最初の徹底的な調査を紹介する。
論文参考訳（メタデータ） (2024-03-31T12:44:48Z)
Data Science for Social Good [2.8621556092850065]
本稿では,「データ・サイエンス・フォー・ソーシャル・グッド」(DSSG)研究の枠組みについて述べる。本研究では,情報システムにおけるDSSG研究の質を実証的に示すために,文献の分析を行う。この記事と特別号が今後のDSSG研究を刺激することを期待している。
論文参考訳（メタデータ） (2023-11-02T15:40:20Z)
A Responsive Framework for Research Portals Data using Semantic Web Technology [0.6798775532273751]
本研究の目的は、研究ポータルデータのセマンティックな組織化のためのフレームワークを設計することでこの問題に対処することである。このフレームワークは、Microsoft AcademicとIEEE Xploreという2つの特定の研究ポータルから情報を抽出することに焦点を当てている。
論文参考訳（メタデータ） (2023-06-20T16:12:33Z)
The ethical ambiguity of AI data enrichment: Measuring gaps in research ethics norms and practices [2.28438857884398]
この研究は、AI研究とデータ豊か化のために、同等な研究倫理要件と規範がどのように開発されたか、そしてどの程度まで調査する。主要なAI会場は、人間のデータ収集のためのプロトコルを確立し始めているが、これらは矛盾なく著者が追従している。
論文参考訳（メタデータ） (2023-06-01T16:12:55Z)
Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文参考訳（メタデータ） (2023-03-18T19:17:47Z)
Human-Centered Responsible Artificial Intelligence: Current & Future Trends [76.94037394832931]
近年、CHIコミュニティは人間中心のレスポンシブル人工知能の研究において著しい成長を遂げている。この研究はすべて、人権と倫理に根ざしたまま、人類に利益をもたらすAIを開発し、AIの潜在的な害を減らすことを目的としている。本研究グループでは,これらのトピックに関心のある学術・産業の研究者を集結させ,現在の研究動向と今後の研究動向を地図化することを目的とする。
論文参考訳（メタデータ） (2023-02-16T08:59:42Z)
How Data Scientists Review the Scholarly Literature [4.406926847270567]
データサイエンティストの文献レビューの実践について検討する。データサイエンスは、論文の指数的な増加を示す分野である。これらの科学者が直面する具体的な実践や課題について、事前の研究は行われていない。
論文参考訳（メタデータ） (2023-01-10T03:53:05Z)
DeepShovel: An Online Collaborative Platform for Data Extraction in Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。 DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。 14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文参考訳（メタデータ） (2022-02-21T12:18:08Z)
Yes-Yes-Yes: Donation-based Peer Reviewing Data Collection for ACL Rolling Review and Beyond [58.71736531356398]
本稿では、ピアレビューデータについて詳細な議論を行い、ピアレビューデータ収集のための倫理的・法的デシダータの概要を述べるとともに、最初の継続的な寄付ベースのデータ収集ワークフローを提案する。本稿では、ACL Rolling Reviewにおいて、このワークフローの現在進行中の実装について報告し、新たに収集したデータから得られた最初の洞察を提供する。
論文参考訳（メタデータ） (2022-01-27T11:02:43Z)
Learnings from Frontier Development Lab and SpaceML -- AI Accelerators for NASA and ESA [57.06643156253045]
AIとML技術による研究は、しばしば非同期の目標とタイムラインを備えたさまざまな設定で動作します。我々は、NASAとESAの民間パートナーシップの下で、AIアクセラレータであるFrontier Development Lab(FDL)のケーススタディを実行する。 FDL研究は、AI研究の責任ある開発、実行、普及に基礎を置く原則的な実践に従う。
論文参考訳（メタデータ） (2020-11-09T21:23:03Z)
Ethical issues with using Internet of Things devices in citizen science research: A scoping review [1.933681537640272]
この章では、市民科学者とモノのインターネット(Internet of Things)デバイスの両方を活用する科学研究のスコーピングレビューを公開している。筆者らは,研究過程で遭遇した倫理的問題について,少なくとも短時間の議論を含む研究を選択した。この分析に続き、市民科学者とIoTデバイスを研究に統合したい研究者に推奨する。
論文参考訳（メタデータ） (2020-07-18T12:22:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。