論文の概要: Scrapers selectively respect robots.txt directives: evidence from a large-scale empirical study
- arxiv url: http://arxiv.org/abs/2505.21733v1
- Date: Tue, 27 May 2025 20:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.275022
- Title: Scrapers selectively respect robots.txt directives: evidence from a large-scale empirical study
- Title(参考訳): スクラッパーはロボット.txtディレクティブを選択的に尊重する:大規模実証研究による証拠
- Authors: Taein Kim, Karstan Bock, Claire Luo, Amanda Liswood, Emily Wenger,
- Abstract要約: 本機関の匿名Webログを用いて,ロボットによるWebスクレイパーコンプライアンスに関する大規模な研究を行った。
ボットはより厳格なロボット.txtディレクティブに従わない傾向にあり、AIサーチクローラーを含む特定のカテゴリのボットは、ロボット.txtを全くチェックしない。
これらの結果は、望ましくないスクラップを防ぐためにロボット.txtに頼ることは危険であり、代替アプローチの必要性を強調していることを示唆している。
- 参考スコア(独自算出の注目度): 4.68008217188575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online data scraping has taken on new dimensions in recent years, as traditional scrapers have been joined by new AI-specific bots. To counteract unwanted scraping, many sites use tools like the Robots Exclusion Protocol (REP), which places a robots.txt file at the site root to dictate scraper behavior. Yet, the efficacy of the REP is not well-understood. Anecdotal evidence suggests some bots comply poorly with it, but no rigorous study exists to support (or refute) this claim. To understand the merits and limits of the REP, we conduct the first large-scale study of web scraper compliance with robots.txt directives using anonymized web logs from our institution. We analyze the behavior of 130 self-declared bots (and many anonymous ones) over 40 days, using a series of controlled robots.txt experiments. We find that bots are less likely to comply with stricter robots.txt directives, and that certain categories of bots, including AI search crawlers, rarely check robots.txt at all. These findings suggest that relying on robots.txt files to prevent unwanted scraping is risky and highlight the need for alternative approaches.
- Abstract(参考訳): 近年、従来のスクレーカーにAIに特化したボットが加わったことで、オンラインデータスクレーピングは新たな次元を踏襲している。
不要なスクレーピングに対処するため、多くのサイトはRobots Exclusion Protocol (REP) などのツールを使用して、ロボット.txtファイルをサイトルートに配置してスクレーカーの動作を決定する。
しかし、REPの有効性は十分に理解されていない。
しかし、この主張を裏付ける(あるいは否定する)厳格な研究は存在しない。
我々は,REPのメリットと限界を理解するために,我々の機関の匿名Webログを用いたロボット.txtディレクティブによるWebスクレイパーコンプライアンスの大規模研究を行った。
我々は、制御された一連のロボット.txt実験を用いて、130の自己宣言されたボット(および多くの匿名のボット)の挙動を40日間にわたって分析する。
ボットはより厳格なロボット.txtディレクティブに従わない傾向にあり、AIサーチクローラーを含む特定のカテゴリのボットは、ロボット.txtを全くチェックしない。
これらの結果は、望ましくないスクラップを防ぐためにロボット.txtファイルに頼ることが危険であり、代替アプローチの必要性を強調していることを示唆している。
関連論文リスト
- The Liabilities of Robots.txt [19.970962071144722]
1994年にRobots Exclusion Protocolの一部として導入されたRobots.txtファイルは、自動化されたボットにアクセス許可を伝えるメカニズムをWebマスターに提供する。
コミュニティ標準として広く採用されているが、ロボット.txtに違反する法的責任はあいまいである。
本稿では,契約・著作権・トレント法の文脈におけるロボット.txtに関連する責任を明らかにする。
論文 参考訳(メタデータ) (2025-03-08T03:16:17Z) - What is a Social Media Bot? A Global Comparison of Bot and Human Characteristics [5.494111035517598]
ボットは、人間が対話理解を必要とするキューを使う間、簡単に自動化できる言語的手がかりを使用する傾向がある。
これらの結論は、7つのイベントにわたる200ミルユーザーにわたるソーシャルメディアのツイートの大規模な分析に基づいている。
論文 参考訳(メタデータ) (2025-01-01T14:45:43Z) - FP-Inconsistent: Detecting Evasive Bots using Browser Fingerprint Inconsistencies [13.105329613926623]
本研究では,回避ボットの大規模な評価を行い,指紋の改ざんが検出の妨げになるかどうかを調査する。
DataDomeに対する平均回避率は52.93%、BotDに対する平均回避率は44.56%である。
回避ボットは指紋属性の整合性を確保するのに困難であると考えられるため、このような不整合を検出するためのルールを見つけるためのデータ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-11T18:26:17Z) - My Brother Helps Me: Node Injection Based Adversarial Attack on Social Bot Detection [69.99192868521564]
Twitterのようなソーシャルプラットフォームは、数多くの不正なユーザーから包囲されている。
ソーシャルネットワークの構造のため、ほとんどの手法は攻撃を受けやすいグラフニューラルネットワーク(GNN)に基づいている。
本稿では,ボット検出モデルを欺いたノードインジェクションに基づく逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T03:09:48Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Fleet-DAgger: Interactive Robot Fleet Learning with Scalable Human
Supervision [72.4735163268491]
ロボットの商業的および産業的な展開は、実行中にリモートの人間のテレオペレーターにフォールバックすることが多い。
我々は対話型フリートラーニング(Interactive Fleet Learning, IFL)の設定を定式化し、複数のロボットが対話型クエリを行い、複数の人間スーパーバイザーから学習する。
IFLアルゴリズムのファミリーであるFleet-DAggerを提案し、新しいFleet-DAggerアルゴリズムをシミュレーションで4つのベースラインと比較する。
論文 参考訳(メタデータ) (2022-06-29T01:23:57Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - CheerBots: Chatbots toward Empathy and Emotionusing Reinforcement
Learning [60.348822346249854]
本研究では,複数の共感型チャットボットがユーザの暗黙の感情を理解し,複数の対話のターンに対して共感的に応答する枠組みを提案する。
チャットボットをCheerBotsと呼びます。CheerBotsは検索ベースまたは生成ベースで、深い強化学習によって微調整されます。
共感的態度で反応するため,CheerBotsの学習支援としてシミュレーションエージェントである概念人間モデルを開発し,今後のユーザの感情状態の変化を考慮し,共感を喚起する。
論文 参考訳(メタデータ) (2021-10-08T07:44:47Z) - Detection of Novel Social Bots by Ensembles of Specialized Classifiers [60.63582690037839]
悪意ある俳優は、社会ボットとして知られるアルゴリズムによって部分的に制御される不正なソーシャルメディアアカウントを作成し、誤情報を広め、オンラインでの議論を扇動する。
異なるタイプのボットが、異なる行動特徴によって特徴づけられることを示す。
本稿では,ボットのクラスごとに専門的な分類器を訓練し,それらの決定を最大ルールで組み合わせる,教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T22:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。