論文の概要: You Have Been LaTeXpOsEd: A Systematic Analysis of Information Leakage in Preprint Archives Using Large Language Models
- arxiv url: http://arxiv.org/abs/2510.03761v1
- Date: Sat, 04 Oct 2025 10:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.235981
- Title: You Have Been LaTeXpOsEd: A Systematic Analysis of Information Leakage in Preprint Archives Using Large Language Models
- Title(参考訳): LaTeXpOsEd:大規模言語モデルを用いたプレプリントアーカイブにおける情報漏洩の体系的解析
- Authors: Richard A. Dubniczky, Bertalan Borsos, Tihanyi Norbert,
- Abstract要約: 衛生がなければ、投稿者はオープンソースインテリジェンスを使って敵が収穫できる機密情報を開示することができる。
我々は,10万件のarXiv提出資料から1.2TB以上のソースデータを解析し,初版アーカイブの大規模セキュリティ監査を行った。
我々は,研究コミュニティとレポジトリオペレーターに,これらの隠れたセキュリティギャップを埋めるために直ちに行動するよう促す。
- 参考スコア(独自算出の注目度): 1.0268444449457959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread use of preprint repositories such as arXiv has accelerated the communication of scientific results but also introduced overlooked security risks. Beyond PDFs, these platforms provide unrestricted access to original source materials, including LaTeX sources, auxiliary code, figures, and embedded comments. In the absence of sanitization, submissions may disclose sensitive information that adversaries can harvest using open-source intelligence. In this work, we present the first large-scale security audit of preprint archives, analyzing more than 1.2 TB of source data from 100,000 arXiv submissions. We introduce LaTeXpOsEd, a four-stage framework that integrates pattern matching, logical filtering, traditional harvesting techniques, and large language models (LLMs) to uncover hidden disclosures within non-referenced files and LaTeX comments. To evaluate LLMs' secret-detection capabilities, we introduce LLMSec-DB, a benchmark on which we tested 25 state-of-the-art models. Our analysis uncovered thousands of PII leaks, GPS-tagged EXIF files, publicly available Google Drive and Dropbox folders, editable private SharePoint links, exposed GitHub and Google credentials, and cloud API keys. We also uncovered confidential author communications, internal disagreements, and conference submission credentials, exposing information that poses serious reputational risks to both researchers and institutions. We urge the research community and repository operators to take immediate action to close these hidden security gaps. To support open science, we release all scripts and methods from this study but withhold sensitive findings that could be misused, in line with ethical principles. The source code and related material are available at the project website https://github.com/LaTeXpOsEd
- Abstract(参考訳): arXivのようなプリプリントリポジトリの普及は、科学的な結果の伝達を加速させる一方で、見落とされたセキュリティリスクも導入している。
PDF以外にも、これらのプラットフォームは、LaTeXソース、補助コード、数字、埋め込みコメントなど、オリジナルソースへの制限のないアクセスを提供する。
衛生がなければ、投稿者はオープンソースインテリジェンスを使って敵が収穫できる機密情報を開示することができる。
本研究では,10万件のarXivファイルから1.2TB以上のソースデータを解析し,初版アーカイブの大規模セキュリティ監査を行った。
パターンマッチング,論理フィルタリング,従来の収穫技術,大規模言語モデル(LLM)を統合した4段階フレームワークであるLaTeXOsEdを導入し,非参照ファイルやLaTeXコメントの隠蔽情報を明らかにする。
LLMの秘密検出能力を評価するために、25の最先端モデルをテストしたベンチマークであるLLMSec-DBを導入する。
私たちの分析では、何千ものPIIリーク、GPSタグ付きEXIFファイル、Google DriveとDropboxフォルダ、編集可能なプライベートSharePointリンク、GitHubとGoogleの認証情報、クラウドAPIキーが発見されました。
我々はまた、秘密の著者のコミュニケーション、内部の意見の不一致、および会議の提出証明書を明らかにし、研究者と機関の両方に深刻な評判のリスクをもたらす情報を公開しました。
我々は,研究コミュニティとレポジトリオペレーターに,これらの隠れたセキュリティギャップを埋めるために直ちに行動するよう促す。
オープンサイエンスを支援するため,本研究のすべてのスクリプトと手法を公表したが,倫理的原則に則って誤用される可能性のあるセンシティブな発見は得られなかった。
ソースコードとその関連資料はプロジェクトのWebサイトhttps://github.com/LaTeXpOsEdで公開されている。
関連論文リスト
- ISACL: Internal State Analyzer for Copyrighted Training Data Leakage [28.435965753598875]
LLM(Large Language Models)は、著作権またはプロプライエタリなデータを不注意に公開するリスクを生じさせる。
本研究は, LLMの内部状態をテキスト生成前に検討し, 潜在的な漏洩を検出する, 積極的なアプローチを提案する。
Retrieval-Augmented Generation (RAG)システムと統合されたこのフレームワークは、著作権とライセンス要件の遵守を保証する。
論文 参考訳(メタデータ) (2025-08-25T08:04:20Z) - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z) - ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain [0.0]
本稿では,ThreatCrawlと呼ばれる新しいクローラを提案する。
BiBERTベースのモデルを使用して文書を分類し、クローリングパスを動的に適応する。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-24T09:53:33Z) - Automatic Analysis of Available Source Code of Top Artificial
Intelligence Conference Papers [9.498078340492087]
利用可能なソースコードで論文を自動的に識別し,ソースコードリポジトリURLを抽出する手法を提案する。
2010年から2019年にかけて発行されたトップ10のAIカンファレンスのレギュラー論文の20.5%が、利用可能なソースコードを持つ論文として特定されている。
大規模な包括的統計分析は、AI会議論文のソースコードの一般的な画像に対して行われる。
論文 参考訳(メタデータ) (2022-09-28T15:05:58Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。