論文の概要: Measuring and Modeling the Free Content Web
- arxiv url: http://arxiv.org/abs/2304.14359v1
- Date: Wed, 26 Apr 2023 04:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 12:24:54.035530
- Title: Measuring and Modeling the Free Content Web
- Title(参考訳): 無料コンテンツWebの測定とモデル化
- Authors: Abdulrahman Alabduljabbar and Runyu Ma and Ahmed Abusnaina and Rhongho
Jang and Songqing Chen and DaeHun Nyang and and David Mohaisen
- Abstract要約: 無料コンテンツとプレミアムウェブサイトの類似点と相違点について検討する。
リスク分析では,Webサイトおよびコンポーネントレベルで,これらのウェブサイトの悪意について検討・検討する。
- 参考スコア(独自算出の注目度): 13.982229874909978
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Free content websites that provide free books, music, games, movies, etc.,
have existed on the Internet for many years. While it is a common belief that
such websites might be different from premium websites providing the same
content types, an analysis that supports this belief is lacking in the
literature. In particular, it is unclear if those websites are as safe as their
premium counterparts. In this paper, we set out to investigate, by analysis and
quantification, the similarities and differences between free content and
premium websites, including their risk profiles. To conduct this analysis, we
assembled a list of 834 free content websites offering books, games, movies,
music, and software, and 728 premium websites offering content of the same
type. We then contribute domain-, content-, and risk-level analysis, examining
and contrasting the websites' domain names, creation times, SSL certificates,
HTTP requests, page size, average load time, and content type. For risk
analysis, we consider and examine the maliciousness of these websites at the
website- and component-level. Among other interesting findings, we show that
free content websites tend to be vastly distributed across the TLDs and exhibit
more dynamics with an upward trend for newly registered domains. Moreover, the
free content websites are 4.5 times more likely to utilize an expired
certificate, 19 times more likely to be malicious at the website level, and
2.64 times more likely to be malicious at the component level. Encouraged by
the clear differences between the two types of websites, we explore the
automation and generalization of the risk modeling of the free content risky
websites, showing that a simple machine learning-based technique can produce
86.81\% accuracy in identifying them.
- Abstract(参考訳): 無料の書籍、音楽、ゲーム、映画などを提供する無料コンテンツサイトは、長年インターネット上に存在してきた。
このようなウェブサイトは、同一のコンテンツタイプを提供する高級ウェブサイトとは異なっているという見方が一般的であるが、この信念を支持する分析は文献に欠けている。
特に、これらのウェブサイトがプレミアムサイトと同じくらい安全かどうかは不明だ。
本稿では,リスクプロファイルを含むフリーコンテンツとプレミアムwebサイトとの類似性と相違を分析・定量化することで調査する。
この分析を行うために、書籍、ゲーム、映画、音楽、ソフトウェアを提供する834の無料コンテンツウェブサイトと、同じタイプのコンテンツを提供する728のプレミアムWebサイトのリストを作成しました。
次に、ドメイン、コンテンツ、リスクレベルの分析に貢献し、ウェブサイトのドメイン名、作成時間、SSL証明書、HTTPリクエスト、ページサイズ、平均ロード時間、コンテンツタイプを調べて比較します。
リスク分析では,Webサイトおよびコンポーネントレベルで,これらのウェブサイトの悪意について検討・検討する。
その他の興味深い発見として、無料コンテンツサイトはTLDに広く分散し、新たに登録されたドメインの傾向が上昇する傾向にある。
さらに、無料コンテンツウェブサイトは、期限切れの証明書を利用する確率が4.5倍、ウェブサイトレベルでは19倍、コンポーネントレベルでは2.64倍である。
両Webサイト間の明確な相違を考慮し、自由コンテンツリスクWebサイトのリスクモデリングの自動化と一般化について検討し、単純な機械学習ベースの技術がそれらを識別する際に86.81\%の精度が得られることを示した。
関連論文リスト
- Health Misinformation Detection in Web Content via Web2Vec: A Structural-, Content-based, and Context-aware Approach based on Web2Vec [3.299010876315217]
我々は、Webページの信頼性を評価するために、構造、コンテンツ、コンテキストベースの機能を研究するための研究の余地がまだあるWebページコンテンツに焦点を当てている。
本研究の目的は, フィッシングWebページ検出(Web2Vec)の文脈で最近提案されたWebページの埋め込み表現から始まる, 深層学習モデルに関連する機能の有効性を検討することである。
論文 参考訳(メタデータ) (2024-07-05T10:33:15Z) - The Web unpacked: a quantitative analysis of global Web usage [0.0]
ウェブトラフィックの総量を推定し、ドメインおよび産業セクター間でのウェブトラフィックの分布を調査する。
分析の結果,Webトラフィックが著しく集中していることが判明した。
トラフィックの大部分は営利目的のウェブサイトだが、ほとんどが無料のウェブサイトに流れており、有料の壁をベースとしないビジネスモデルの優位性を強調している。
論文 参考訳(メタデータ) (2024-04-26T01:05:47Z) - Dismantling Common Internet Services for Ad-Malware Detection [0.0]
インターネット上で誰がアドマルウェアを定義するかを評価する。
クローリング中に見つかったドメインの最大0.47%は、DNSプロバイダによって疑わしいとラベル付けされている。
これらのドメインの約0.7%から3.2%のみがアドマルウェアに分類される。
論文 参考訳(メタデータ) (2024-04-22T13:59:37Z) - User Attitudes to Content Moderation in Web Search [49.1574468325115]
我々は、Web検索における誤解を招く可能性のあるコンテンツや攻撃的なコンテンツに適用される様々なモデレーションプラクティスに対するサポートレベルについて検討する。
最も支持されている実践は、誤解を招く可能性のあるコンテンツや不快なコンテンツについてユーザーに知らせることであり、最も支持されていないものは、検索結果を完全に削除することである。
より保守的なユーザーやウェブ検索結果に対する信頼度が低いユーザーは、ウェブ検索におけるコンテンツモデレーションに反する傾向にある。
論文 参考訳(メタデータ) (2023-10-05T10:57:15Z) - An Image is Worth a Thousand Toxic Words: A Metamorphic Testing
Framework for Content Moderation Software [64.367830425115]
ソーシャルメディアプラットフォームは、ヘイトスピーチ、悪意のある広告、ポルノなど、有害なコンテンツを拡散するためにますます悪用されている。
コンテンツモデレーション手法の開発と展開に多大な努力を払っているにもかかわらず、悪意のあるユーザは、テキストを画像に埋め込むことでモデレーションを回避することができる。
コンテンツモデレーションソフトウェアのためのメタモルフィックテストフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-18T20:33:06Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Do Content Management Systems Impact the Security of Free Content
Websites? A Correlation Analysis [9.700241283477343]
1500以上のウェブサイトに無料コンテンツとプレミアムコンテンツを組み合わせて、コンテンツ管理システム(CMS)と悪意のある属性を識別する。
多数のカスタムコードWebサイトがあるにも関わらず、CMSの使用が普及していることが分かります。
人気のあるCMSの脆弱性にパッチされていない少数の脆弱性でさえ、重大な悪意の可能性がある。
論文 参考訳(メタデータ) (2022-10-21T16:19:09Z) - Modeling Content Creator Incentives on Algorithm-Curated Platforms [76.53541575455978]
本研究では,アルゴリズムの選択が露出ゲームにおける(ナッシュ)平衡の存在と性格にどのように影響するかを検討する。
本研究では、露出ゲームにおける平衡を数値的に見つけるためのツールを提案し、MovieLensとLastFMデータセットの監査結果を示す。
論文 参考訳(メタデータ) (2022-06-27T08:16:59Z) - Leveraging Google's Publisher-specific IDs to Detect Website
Administration [3.936965297430477]
本稿では,Web上のWebサイトの管理を検知する新しいグラフベースの手法を提案する。
提案手法を上位100万のWebサイトに適用し,Webサイト管理の生み出したグラフの特徴について検討する。
調査の結果,Webサイトの約90%が1つのパブリッシャに関連付けられており,小さなパブリッシャがあまり人気のないWebサイトを管理する傾向にあることがわかった。
論文 参考訳(メタデータ) (2022-02-10T14:59:17Z) - What's in the Box? An Analysis of Undesirable Content in the Common
Crawl Corpus [77.34726150561087]
言語モデルの訓練に広く使用されるコロッサルwebコーパスであるcommon crawlを分析した。
ヘイトスピーチや性的明示的なコンテンツなど、フィルタリング処理後も、好ましくないコンテンツがかなりの量含まれていることがわかりました。
論文 参考訳(メタデータ) (2021-05-06T14:49:43Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。