論文の概要: Automatic Generation of Web Censorship Probe Lists
- arxiv url: http://arxiv.org/abs/2407.08185v1
- Date: Thu, 11 Jul 2024 05:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:58:33.332805
- Title: Automatic Generation of Web Censorship Probe Lists
- Title(参考訳): Web Censorship Probe List の自動生成
- Authors: Jenny Tang, Leo Alvarez, Arjun Brar, Nguyen Phong Hoang, Nicolas Christin,
- Abstract要約: それまでのドメインプローブリストの生成作業は,大部分が手作業あるいはクラウドソースによるものだった。
本稿では,Web検閲計測における包括的かつ最新のプローブリストの自動生成手法について検討する。
- 参考スコア(独自算出の注目度): 6.051603326423421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain probe lists--used to determine which URLs to probe for Web censorship--play a critical role in Internet censorship measurement studies. Indeed, the size and accuracy of the domain probe list limits the set of censored pages that can be detected; inaccurate lists can lead to an incomplete view of the censorship landscape or biased results. Previous efforts to generate domain probe lists have been mostly manual or crowdsourced. This approach is time-consuming, prone to errors, and does not scale well to the ever-changing censorship landscape. In this paper, we explore methods for automatically generating probe lists that are both comprehensive and up-to-date for Web censorship measurement. We start from an initial set of 139,957 unique URLs from various existing test lists consisting of pages from a variety of languages to generate new candidate pages. By analyzing content from these URLs (i.e., performing topic and keyword extraction), expanding these topics, and using them as a feed to search engines, our method produces 119,255 new URLs across 35,147 domains. We then test the new candidate pages by attempting to access each URL from servers in eleven different global locations over a span of four months to check for their connectivity and potential signs of censorship. Our measurements reveal that our method discovered over 1,400 domains--not present in the original dataset--we suspect to be blocked. In short, automatically updating probe lists is possible, and can help further automate censorship measurements at scale.
- Abstract(参考訳): ドメイン・プローブ・リストは、Web検閲を調査するURLを決定するために使われ、インターネット検閲測定研究において重要な役割を果たす。
実際、ドメインプローブリストのサイズと精度は、検出可能な検閲ページのセットを制限する。
それまでのドメインプローブリストの生成作業は,大部分が手作業あるいはクラウドソースによるものだった。
このアプローチは時間がかかり、エラーを起こしやすいため、検閲の状況が変わらず変化するのに対して、十分にスケールできない。
本稿では,Web検閲計測のための包括的かつ最新のプローブリストの自動生成手法について検討する。
まず、さまざまな言語のページからなる既存のテストリストから139,957個のユニークなURLの最初のセットから始め、新しい候補ページを生成する。
これらのURLからコンテンツ(トピックとキーワード抽出)を分析し、これらのトピックを拡張し、検索エンジンへのフィードとして使用することにより、35,147個のドメインに119,255個の新しいURLを生成する。
次に、新しい候補ページをテストし、11の異なるグローバルロケーションのサーバから各URLにアクセスして、接続性や検閲の兆候を確認する。
提案手法により,元のデータセットには存在しない1,400以上のドメインが検出された。
簡単に言うと、プローブリストを自動的に更新することは可能であり、大規模な検閲測定の自動化に役立てることができる。
関連論文リスト
- Understanding Routing-Induced Censorship Changes Globally [5.79183660559872]
検閲結果の不整合の原因はEqual-cost Multi-path(ECMP)ルーティングの程度である。
我々は、ECMPルーティングが、プロトコル、検閲機構、および17か国で観察された検閲を著しく変更することを発見した。
我々の研究は、将来の研究を改善し、矛盾を減らし、再現性を高める方法を示している。
論文 参考訳(メタデータ) (2024-06-27T16:21:31Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Cookiescanner: An Automated Tool for Detecting and Evaluating GDPR
Consent Notices on Websites [1.3416250383686867]
本稿では,同意通知を検出し,抽出する自動スキャンツールであるEmphcookiescannerを紹介する。
その結果,手作業によるフィルタリストの精度は高いが,キーワードベースの手法よりも同意度が低いことがわかった。
我々のBERTモデルは、以前の研究と一致しているが、候補抽出が不十分なため、低リコールに苦しむ英語の通知に対して高い精度を達成する。
論文 参考訳(メタデータ) (2023-09-12T13:04:00Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - WebCPM: Interactive Web Search for Chinese Long-form Question Answering [104.676752359777]
LFQA(Long-form Question answering)は、複雑でオープンな質問に、段落長の詳細な回答で答えることを目的としている。
中国初のLFQAデータセットであるWebCPMを紹介する。
高品質な質問応答対5,500件,支援事実14,315件,Web検索121,330件を収集した。
論文 参考訳(メタデータ) (2023-05-11T14:47:29Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Augmenting Rule-based DNS Censorship Detection at Scale with Machine
Learning [38.00013408742201]
ドメイン名システム(DNS)の検閲は、異なる国で使用される重要なメカニズムである。
本稿では,機械学習(ML)モデルが検出プロセスの合理化にどのように役立つかを検討する。
検閲されていないインスタンスのみに基づいてトレーニングされた教師なしモデルは、既存のプローブが見逃した新しいインスタンスと検閲のバリエーションを特定することができる。
論文 参考訳(メタデータ) (2023-02-03T23:36:30Z) - An Adversarial Attack Analysis on Malicious Advertisement URL Detection
Framework [22.259444589459513]
悪意のある広告URLは、サイバー攻撃の源泉であるため、セキュリティ上のリスクをもたらす。
既存の悪意のあるURL検出技術は制限されており、見えない機能やテストデータの一般化を扱うことができる。
本研究では,新しい語彙・ウェブスクラップ機能群を抽出し,機械学習技術を用いて不正広告URL検出システムを構築する。
論文 参考訳(メタデータ) (2022-04-27T20:06:22Z) - Fingerprinting Search Keywords over HTTPS at Scale [0.5549359079450177]
人気のあるウェブ検索エンジンでユーザーが発行する検索キーワードを指紋化することは、ユーザーのプライバシーにとって重大な脅威だ。
クライアントプラットフォームの多様性,検索エンジンの選択,機能セット,分類フレームワークなど,いくつかの要因の影響について検討する。
我々の分析は、現代のHTTPSトラフィックにおけるキーワードフィンガープリントの脅威に関するいくつかの洞察を明らかにしている。
論文 参考訳(メタデータ) (2020-08-18T21:24:52Z) - On the Social and Technical Challenges of Web Search Autosuggestion
Moderation [118.47867428272878]
自動提案は通常、検索ログと文書表現のコーパスに基づいてトレーニングされた機械学習(ML)システムによって生成される。
現在の検索エンジンは、このような問題のある提案を抑えるのに、ますます熟練している。
問題のある提案のいくつかの側面、パイプラインに沿った困難な問題、そしてWeb検索を超えたアプリケーションの増加になぜ私たちの議論が適用されるのかについて論じる。
論文 参考訳(メタデータ) (2020-07-09T19:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。