論文の概要: Is Misinformation More Open? A Study of robots.txt Gatekeeping on the Web
- arxiv url: http://arxiv.org/abs/2510.10315v1
- Date: Sat, 11 Oct 2025 18:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.884462
- Title: Is Misinformation More Open? A Study of robots.txt Gatekeeping on the Web
- Title(参考訳): Misinformationはもっとオープンか? Web上のロボット.txtゲートキーピングの研究
- Authors: Nicolas Steinacker-Olsztyn, Devashish Gosain, Ha Dao,
- Abstract要約: 評価可能なニュースサイトと誤報サイトがロボット.txtファイルの設定方法に異なるかどうかを検討する。
回答可能なサイトの60.0%は、ロボット.txtファイル内の偽情報サイトの9.1%に対して、少なくとも1つのAIクローラを禁止している。
我々の研究は、大規模言語モデルで利用可能なトレーニングデータを形成することができるコンテンツアクセシビリティの非対称性の増大に注目した。
- 参考スコア(独自算出の注目度): 2.370481325034444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly relying on web crawling to stay up to date and accurately answer user queries. These crawlers are expected to honor robots.txt files, which govern automated access. In this study, for the first time, we investigate whether reputable news websites and misinformation sites differ in how they configure these files, particularly in relation to AI crawlers. Analyzing a curated dataset, we find a stark contrast: 60.0% of reputable sites disallow at least one AI crawler, compared to just 9.1% of misinformation sites in their robots.txt files. Reputable sites forbid an average of 15.5 AI user agents, while misinformation sites prohibit fewer than one. We then measure active blocking behavior, where websites refuse to return content when HTTP requests include AI crawler user agents, and reveal that both categories of websites utilize it. Notably, the behavior of reputable news websites in this regard aligns more closely with their declared robots.txt directive than that of misinformation websites. Finally, our longitudinal analysis reveals that this gap has widened over time, with AI-blocking by reputable sites rising from 23% in September 2023 to nearly 60% by May 2025. Our findings highlight a growing asymmetry in content accessibility that may shape the training data available to LLMs, raising essential questions for web transparency, data ethics, and the future of AI training practices.
- Abstract(参考訳): 大きな言語モデル(LLM)は、最新の状態を維持し、ユーザのクエリに正確に答えるために、Webクローリングにますます依存しています。
これらのクローラーはロボット.txtファイルに敬意を表し、自動アクセスを管理する。
本研究では,検索可能なニュースサイトと誤報サイトが,これらのファイルの構成方法,特にAIクローラに関連して異なるかどうかを初めて検討する。
60.0%のreputableサイトは、ロボット.txtファイルの9.1%の誤情報サイトに対して、少なくとも1つのAIクローラを許可しない。
信頼できるサイトは平均15.5人のAIユーザーエージェントを禁止し、偽情報サイトは1人未満を禁止している。
HTTPリクエストにAIクローラユーザエージェントが含まれている場合、Webサイトはコンテンツを返すことを拒否し、両方のWebサイトのカテゴリがそれを利用していることを明らかにする。
この点において、信頼できるニュースサイトの振舞いは、偽情報Webサイトよりも、宣言されたロボット.txtディレクティブとより密接に一致している。
最後に、我々の縦断的な分析によると、このギャップは時間とともに拡大しており、2023年9月の23%から、2025年5月までに60%近くまで増加しています。
我々の発見は、コンテンツアクセシビリティの非対称性が増大し、LLMで利用可能なトレーニングデータを形作り、Webの透明性、データ倫理、そしてAIトレーニングプラクティスの将来に対する重要な疑問を提起する可能性があることを強調している。
関連論文リスト
- A roadmap for AI in robotics [55.87087746398059]
AIの可能性を生かして、私たちの日常生活にロボットを配備する上での、際立った障壁に取り組みたいと考えています。
この記事では、1990年代からロボット工学におけるAIが達成したことを評価し、課題と約束を列挙した短期的・中期的な研究ロードマップを提案する。
論文 参考訳(メタデータ) (2025-07-26T15:18:28Z) - Scrapers selectively respect robots.txt directives: evidence from a large-scale empirical study [4.68008217188575]
本機関の匿名Webログを用いて,ロボットによるWebスクレイパーコンプライアンスに関する大規模な研究を行った。
ボットはより厳格なロボット.txtディレクティブに従わない傾向にあり、AIサーチクローラーを含む特定のカテゴリのボットは、ロボット.txtを全くチェックしない。
これらの結果は、望ましくないスクラップを防ぐためにロボット.txtに頼ることは危険であり、代替アプローチの必要性を強調していることを示唆している。
論文 参考訳(メタデータ) (2025-05-27T20:22:45Z) - The Liabilities of Robots.txt [9.246300945280142]
我々は,シビル・ドクトリンがWebロボットの動作を制御するための,よりバランスよく持続可能な枠組みを提供すると主張している。
我々は「robots.txt」違反の責任を明確にすることがインターネットの断片化の増大に不可欠であると主張している。
論文 参考訳(メタデータ) (2025-03-08T03:16:17Z) - Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
本研究では、AI-Polished-Text Evaluationデータセットを用いて、12の最先端AIテキスト検出器を体系的に評価する。
我々の発見によると、検出器は、最小限に洗練されたテキストをAI生成としてフラグ付けし、AIの関与度を区別し、古いモデルや小さなモデルに対するバイアスを示す。
論文 参考訳(メタデータ) (2025-02-21T18:45:37Z) - Consent in Crisis: The Rapid Decline of the AI Data Commons [74.68176012363253]
汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。
我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
論文 参考訳(メタデータ) (2024-07-20T16:50:18Z) - Learning to Defer in Congested Systems: The AI-Human Interplay [4.324474867341765]
高評価のアプリケーションは、応答性と信頼性の高い意思決定のために、AI(Artificial Intelligence)と人間の組み合わせに依存している。
本稿では,このようなAIと人間の相互作用を捉えるモデルを提案する。
本稿では,選択されたサンプルデータからの分類損失を注意深くバランスする,準最適学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:47:47Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。