論文の概要: Hidden Secrets in the arXiv: Discovering, Analyzing, and Preventing Unintentional Information Disclosure in Source Files of Scientific Preprints
- arxiv url: http://arxiv.org/abs/2604.20927v1
- Date: Wed, 22 Apr 2026 08:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.09955
- Title: Hidden Secrets in the arXiv: Discovering, Analyzing, and Preventing Unintentional Information Disclosure in Source Files of Scientific Preprints
- Title(参考訳): arXivに隠された秘密:科学文献のソースファイルにおける意図しない情報開示の発見・分析・防止
- Authors: Jan Pennekamp, Johannes Lohmöller, David Schütte, Joscha Loos, Martin Henze,
- Abstract要約: 我々は、ソースファイルによる情報開示の3次元にわたる利用可能なソースファイルを用いて、2.7M arXiv を解析する。
分析の結果,ほぼすべてのarXivサブミッションには,何らかの「隠された」情報が含まれていることがわかった。
ALC-NGは、文書をコンパイルする必要がないファイル、メタデータ、コメントを包括的に削除する。
- 参考スコア(独自算出の注目度): 4.620974866012306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preprints are essential for the timely and open dissemination of research. arXiv, the most widely used preprint service, takes the idea of open science one step further by not only publishing the actual preprints but also LaTeX sources and other files used to create them. As known from other contexts, such as GitHub repositories, and anecdotally exemplified for arXiv, making source code publicly available risks disclosing otherwise "hidden" information. Consequently, the public availability of paper sources raises the question of how much sensitive content is (unintentionally) disclosed through them. In this paper, we systematically answer this question for all 2.7M arXiv submissions with available source files across three dimensions of source file-induced information disclosure: (1) inclusion of unnecessary files, (2) metadata embedded in files, and (3) irrelevant content in files such as source code comments. Our analysis reveals that nearly every arXiv submission contains some form of "hidden" information. Notable findings range from links to editable web documents for internal coordination over API and private keys to complete Git histories. While different tools promise to remove such information from source files, we show that they fail to reliably achieve the intended cleaning functionality. To mitigate this situation, we provide ALC-NG to comprehensively remove files, metadata, and comments that are not needed to compile a LaTeX paper.
- Abstract(参考訳): プレプリントは、研究のタイムリーかつオープンな普及に不可欠である。
最も広く使われているプレプリントサービスarXivは、実際のプレプリントだけでなく、LaTeXソースやその他のファイルも公開することによって、オープンサイエンスのアイデアをさらに一歩進めている。
GitHubリポジトリなどの他のコンテキストから知られているように、arXivを例に挙げると、ソースコードが公開され、"隠された"情報を開示するリスクが生じる。
その結果、紙ソースの公開は、どれだけの機密コンテンツが(意図せずに)開示されているかという疑問を提起する。
本稿では,(1)不必要なファイルの取り込み,(2)ファイルに埋め込まれたメタデータ,(3)ソースコードのコメントなどの無関係な内容を含む3次元のソースファイルを用いた2.7M arXivの投稿に対して,この質問を体系的に回答する。
分析の結果,ほぼすべてのarXivサブミッションには,何らかの「隠された」情報が含まれていることがわかった。
注目すべき発見は、リンクから編集可能なWebドキュメント、APIとプライベートキーによる内部調整、Gitヒストリーの完成などだ。
さまざまなツールがソースファイルからそのような情報を削除することを約束していますが、意図したクリーニング機能が確実に達成できないことが分かりました。
この状況を緩和するために、我々はALC-NGを使用して、LaTeXの論文をコンパイルする必要がないファイル、メタデータ、コメントを包括的に削除する。
関連論文リスト
- You Have Been LaTeXpOsEd: A Systematic Analysis of Information Leakage in Preprint Archives Using Large Language Models [1.0268444449457959]
衛生がなければ、投稿者はオープンソースインテリジェンスを使って敵が収穫できる機密情報を開示することができる。
我々は,10万件のarXiv提出資料から1.2TB以上のソースデータを解析し,初版アーカイブの大規模セキュリティ監査を行った。
我々は,研究コミュニティとレポジトリオペレーターに,これらの隠れたセキュリティギャップを埋めるために直ちに行動するよう促す。
論文 参考訳(メタデータ) (2025-10-04T10:03:17Z) - Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [44.31597857713689]
最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - How many preprints have actually been printed and why: a case study of
computer science preprints on arXiv [9.783989953810725]
我々は、最終的にピアレビューされた会場で、どれだけのプレプリントが印刷されたかを定量化します。
刊行された写本のうち、いくつかは異なるタイトルで出版され、arXivの事前版も更新されていない。
コンピュータ科学の分野では、プレプリントは適切なリビジョン、複数の著者、詳細な抽象化と導入、広範囲で権威のある参照、利用可能なソースコードを特徴としている。
論文 参考訳(メタデータ) (2023-08-03T17:56:16Z) - ThreatCrawl: A BERT-based Focused Crawler for the Cybersecurity Domain [0.0]
本稿では,ThreatCrawlと呼ばれる新しいクローラを提案する。
BiBERTベースのモデルを使用して文書を分類し、クローリングパスを動的に適応する。
収穫率は最大52%で、私たちの知る限りでは、現在の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2023-04-24T09:53:33Z) - unarXive 2022: All arXiv Publications Pre-Processed for NLP, Including
Structured Full-Text and Citation Network [0.0]
我々は、unarXiveというデータセットの新バージョンを提案する。
得られたデータセットは、複数の分野にまたがる1.9Mの出版物と32年からなる。
データセットに加えて、引用レコメンデーションとIMRaD分類のための準備の整ったトレーニング/テストデータを提供する。
論文 参考訳(メタデータ) (2023-03-27T07:40:59Z) - The Semantic Scholar Open Data Platform [92.2948743167744]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Cracking Double-Blind Review: Authorship Attribution with Deep Learning [43.483063713471935]
本稿では、匿名の原稿を著者に属性付けるトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。
我々は、arXivで公開されているすべての研究論文を200万冊以上の原稿に活用する。
本手法は, 論文の最大73%を正解する, 前代未聞の著者帰属精度を実現する。
論文 参考訳(メタデータ) (2022-11-14T15:50:24Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - ArXiving Before Submission Helps Everyone [38.09600429721343]
我々はarXivingの論文の長所と短所を分析する。
著者以外の人がarXivを選択すべきかどうか判断する理由は何もありません。
論文 参考訳(メタデータ) (2020-10-11T22:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。