Fugu-MT 論文翻訳(概要): The Silent Spill: Measuring Sensitive Data Leaks Across Public URL Repositories

論文の概要: The Silent Spill: Measuring Sensitive Data Leaks Across Public URL Repositories

arxiv url: http://arxiv.org/abs/2602.21826v1
Date: Wed, 25 Feb 2026 11:54:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.820385
Title: The Silent Spill: Measuring Sensitive Data Leaks Across Public URL Repositories
Title（参考訳）: The Silent Spill: 公開URLリポジトリ全体での機密データ漏洩を計測する
Authors: Tarek Ramadan, AbdelRahman Abdou, Mohammad Mannan, Amr Youssef,
Abstract要約: 本稿では,公開URLから漏洩した潜在的な機密情報を検知し,分析する自動システムを提案する。公開スキャンプラットフォーム,ペーストサイト,Webアーカイブから収集した6,094,475のURLに適用する。これらの結果から, 機密情報が漏洩し, 自動検出の重要性が示唆された。
参考スコア（独自算出の注目度）: 3.557034943202842
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A large number of URLs are made public by various platforms for security analysis, archiving, and paste sharing -- such as VirusTotal, URLScan.io, Hybrid Analysis, the Wayback Machine, and RedHunt. These services may unintentionally expose links containing sensitive information, as reported in some news articles and blog posts. However, no large-scale measurement has quantified the extent of such exposures. We present an automated system that detects and analyzes potential sensitive information leaked through publicly accessible URLs. The system combines lexical URL filtering, dynamic rendering, OCR-based extraction, and content classification to identify potential leaks. We apply it to 6,094,475 URLs collected from public scanning platforms, paste sites, and web archives, identifying 12,331 potential exposures across authentication, financial, personal, and document-related domains. These findings show that sensitive information remains exposed, underscoring the importance of automated detection to identify accidental leaks.
Abstract（参考訳）: VirusTotal、URLScan.io、ハイブリッド分析、Wayback Machine、RedHuntなど、セキュリティ分析、アーカイブ、ペースト共有のためのさまざまなプラットフォームによって、多数のURLが公開されている。これらのサービスは、一部のニュース記事やブログ投稿で報告されているように、機密情報を含むリンクを意図せずに公開する可能性がある。しかし、そのような露光の程度を定量化する大規模な測定は行われていない。本稿では,公開URLから漏洩した潜在的な機密情報を検知し,分析する自動システムを提案する。このシステムは、語彙的なURLフィルタリング、動的レンダリング、OCRベースの抽出、およびコンテンツの分類を組み合わせて、潜在的なリークを識別する。我々は、パブリックスキャンプラットフォーム、ペーストサイト、ウェブアーカイブから収集された6,094,475のURLに適用し、認証、財務、個人、および文書関連ドメインにわたる12,331の潜在的な露出を特定します。これらの結果から, 機密情報が漏洩し, 自動検出の重要性が示唆された。

関連論文リスト

Analyzing the Availability of E-Mail Addresses for PyPI Libraries [89.21869606965578]
81.6%のライブラリには、少なくとも1つの有効な電子メールアドレスが含まれており、PyPIが主要なソースとなっている。 698,000以上の無効なエントリを識別します。
論文参考訳（メタデータ） (2026-01-20T14:54:58Z)
Characterizing Phishing Pages by JavaScript Capabilities [77.64740286751834]
本論文は,フィッシングページのグループを自動的に識別し,研究者やアナリストを支援することを目的としている。キット検出の精度は,4,562個のフィッシングURLに展開した548個のキット群に対して97%であった。 UIの対話性と基本的なフィンガープリントは、クラスタの90%と80%に存在する普遍的なテクニックであることが分かりました。
論文参考訳（メタデータ） (2025-09-16T15:39:23Z)
LLM-Based Identification of Infostealer Infection Vectors from Screenshots: The Case of Aurora [0.0]
情報ステアラーは、感染したシステムから認証情報、セッションクッキー、機密データを抽出する。 2024年に2900万件以上の盗難記録が報告されたため、手動による分析と大規模な緩和は事実上不可能で実用的ではない。本稿では,Large Language Models (LLMs) を用いた感染画像解析手法を提案する。
論文参考訳（メタデータ） (2025-07-31T14:49:03Z)
Client-Side Zero-Shot LLM Inference for Comprehensive In-Browser URL Analysis [0.0]
悪意のあるウェブサイトやフィッシングURLは、サイバーセキュリティのリスクがますます高まっている。従来の検出アプローチは機械学習に依存している。包括的URL分析のための新しいクライアントサイドフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-04T07:47:23Z)
Automated Profile Inference with Language Model Agents [67.32226960040514]
自動プロファイル推論(Automatic Profile Inference)と呼ばれる,LLMがオンラインの偽名にもたらす新たな脅威について検討する。相手は、LDMに対して、疑似プラットフォーム上で公開されているユーザアクティビティから、機密性の高い個人属性を自動的に取り除き、抽出するように指示することができる。実世界のシナリオにおけるこのような脅威の可能性を評価するために,AutoProfilerという自動プロファイリングフレームワークを導入する。
論文参考訳（メタデータ） (2025-05-18T13:05:17Z)
Document Screenshot Retrievers are Vulnerable to Pixel Poisoning Attacks [72.4498910775871]
ヴィジュアル言語モデル(VLM)ベースのレトリバーは、ベクターとして埋め込まれた文書のスクリーンショットを活用して、効率的な検索を可能にし、従来のテキストのみの手法よりも単純化されたパイプラインを提供する。本研究では,VLMをベースとしたレトリバーを危険にさらすために,3つのピクセル中毒攻撃手法を提案する。
論文参考訳（メタデータ） (2025-01-28T12:40:37Z)
SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model [48.547599530927926]
ソーシャルメディア上で共有される合成画像は、広範囲の聴衆を誤解させ、デジタルコンテンツに対する信頼を損なう可能性がある。ソーシャルメディア画像検出データセット(SID-Set)を紹介する。本稿では,SIDA という画像深度検出,局所化,説明の枠組みを提案する。
論文参考訳（メタデータ） (2024-12-05T16:12:25Z)
Can Features for Phishing URL Detection Be Trusted Across Diverse Datasets? A Case Study with Explainable AI [0.0]
フィッシング(Phishing)は、ユーザーを操り、偽装戦術によって機密性の高い個人情報を暴露するサイバー脅威として広く利用されている。フィッシングURL(またはウェブサイト)を積極的に検出することは、広く受け入れられた防衛アプローチとして確立されている。公開されている2つのフィッシングURLデータセットを分析し、それぞれのデータセットにはURL文字列とWebサイトコンテンツに関連する独自の、重複した機能セットがあります。
論文参考訳（メタデータ） (2024-11-14T21:07:52Z)
Automatic Generation of Web Censorship Probe Lists [6.051603326423421]
それまでのドメインプローブリストの生成作業は,大部分が手作業あるいはクラウドソースによるものだった。本稿では,Web検閲計測における包括的かつ最新のプローブリストの自動生成手法について検討する。
論文参考訳（メタデータ） (2024-07-11T05:04:52Z)
An Adversarial Attack Analysis on Malicious Advertisement URL Detection Framework [22.259444589459513]
悪意のある広告URLは、サイバー攻撃の源泉であるため、セキュリティ上のリスクをもたらす。既存の悪意のあるURL検出技術は制限されており、見えない機能やテストデータの一般化を扱うことができる。本研究では,新しい語彙・ウェブスクラップ機能群を抽出し,機械学習技術を用いて不正広告URL検出システムを構築する。
論文参考訳（メタデータ） (2022-04-27T20:06:22Z)
Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文参考訳（メタデータ） (2021-10-14T20:19:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。