論文の概要: I still know it's you! On Challenges in Anonymizing Source Code
- arxiv url: http://arxiv.org/abs/2208.12553v1
- Date: Fri, 26 Aug 2022 10:07:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:40:44.977972
- Title: I still know it's you! On Challenges in Anonymizing Source Code
- Title(参考訳): まだあなただとわかってる!
ソースコードの匿名化の課題
- Authors: Micha Horlboge, Erwin Quiring, Roland Meyer, Konrad Rieck
- Abstract要約: 属性は、反検閲およびプライバシー強化技術の開発者にとって重大な脅威となる。
この脅威から理想的な保護は、ソースコードの匿名化である。
我々は、$k$の著者の1つに帰属できないプログラムを生成するタスクは計算不可能であることを証明した。
攻撃者が匿名化に気付くと、いずれの手法も十分な保護を提供しないことがわかった。
- 参考スコア(独自算出の注目度): 11.175586147749131
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The source code of a program not only defines its semantics but also contains
subtle clues that can identify its author. Several studies have shown that
these clues can be automatically extracted using machine learning and allow for
determining a program's author among hundreds of programmers. This attribution
poses a significant threat to developers of anti-censorship and
privacy-enhancing technologies, as they become identifiable and may be
prosecuted. An ideal protection from this threat would be the anonymization of
source code. However, neither theoretical nor practical principles of such an
anonymization have been explored so far.
In this paper, we tackle this problem and develop a framework for reasoning
about code anonymization. We prove that the task of generating a $k$-anonymous
program -- a program that cannot be attributed to one of $k$ authors -- is not
computable and thus a dead end for research. As a remedy, we introduce a
relaxed concept called $k$-uncertainty, which enables us to measure the
protection of developers. Based on this concept, we empirically study candidate
techniques for anonymization, such as code normalization, coding style
imitation, and code obfuscation. We find that none of the techniques provides
sufficient protection when the attacker is aware of the anonymization. While we
introduce an approach for removing remaining clues from the code, the main
result of our work is negative: Anonymization of source code is a hard and open
problem.
- Abstract(参考訳): プログラムのソースコードはその意味論を定義するだけでなく、著者を識別できる微妙な手がかりも含んでいる。
いくつかの研究によると、これらのヒントは機械学習を使って自動的に抽出され、数百人のプログラマの間でプログラムの作者を決定することができる。
この帰属は、検閲やプライバシー強化技術が特定可能になり、起訴される可能性があるため、開発者にとって大きな脅威となる。
この脅威から理想的な保護は、ソースコードの匿名化である。
しかし、このような匿名化の理論的・実践的な原則はこれまでにも検討されていない。
本稿では,この問題に取り組み,コードの匿名化を推論するためのフレームワークを開発する。
私たちは、$k$の匿名のプログラムを生成するというタスクは、$k$の著者の1つに起因しないプログラムであり、計算不可能であり、したがって研究の行き詰まりであると証明する。
対策として、開発者の保護を測定するために、$k$-uncertaintyという緩和された概念を紹介します。
この概念に基づいて,コード正規化やコーディングスタイルの模倣,コードの難読化など,匿名化の候補手法を実証的に研究する。
攻撃者が匿名化に気付くと、いずれの手法も十分な保護を提供しないことがわかった。
コードから残りの手がかりを取り除くためのアプローチを導入する一方で、私たちの仕事の主な結果は否定的です。
関連論文リスト
- Poisoned Forgery Face: Towards Backdoor Attacks on Face Forgery
Detection [62.595450266262645]
本稿では,バックドア攻撃による顔偽造検出の新たな脅威について紹介する。
バックドアをモデルに埋め込むことで、攻撃者は検知器を騙して偽造された顔の誤予測を発生させることができる。
我々は,顔偽造検知器に対するクリーンラベルバックドア攻撃を可能にするemphPoisoned Forgery Faceフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T06:31:05Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - UID as a Guiding Metric for Automated Authorship Obfuscation [0.0]
自動著者トリビュータは、著者のプールにテキストの著者を非常に正確に帰属させることができる。
これらの自動消火器の台頭に対応するため、自動消火器の台頭も行われている。
そこで我々は,一様情報密度(UID)理論として知られる心理学言語理論を利用した3つの新しい著者難読化手法を考案した。
論文 参考訳(メタデータ) (2023-11-05T22:16:37Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - Backdoor Cleansing with Unlabeled Data [70.29989887008209]
外部訓練されたディープニューラルネットワーク(DNN)は、バックドア攻撃を受ける可能性がある。
トレーニングラベルを必要としない新しい防衛手法を提案する。
ラベルなしで訓練された本手法は,ラベルを用いて訓練した最先端の防御手法と同等である。
論文 参考訳(メタデータ) (2022-11-22T06:29:30Z) - Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset
Copyright Protection [69.59980270078067]
我々は,異常なモデル行動が決定論的でない,未目標のバックドア透かし方式を探索する。
また、提案した未ターゲットのバックドア透かしをデータセットのオーナシップ検証に利用する方法について論じる。
論文 参考訳(メタデータ) (2022-09-27T12:56:56Z) - A Girl Has A Name, And It's ... Adversarial Authorship Attribution for
Deobfuscation [9.558392439655014]
本研究では,既存の難読化剤の有効性を低下させることが可能であることを示す。
以上の結果から,難治性の強い難治性アプローチの必要性が示唆された。
論文 参考訳(メタデータ) (2022-03-22T16:26:09Z) - Initiative Defense against Facial Manipulation [82.96864888025797]
本稿では,悪意あるユーザによって制御される顔操作モデルの性能を低下させるための,イニシアティブ・ディフェンスの新しい枠組みを提案する。
まず、サロゲートモデルを用いてターゲット操作モデルを模倣し、次に毒の摂動発生器を考案し、所望の毒を得る。
論文 参考訳(メタデータ) (2021-12-19T09:42:28Z) - CoProtector: Protect Open-Source Code against Unauthorized Training
Usage with Data Poisoning [9.676320239717073]
数十億行の公開コードに基づいてトレーニングされたGithub Copilotが、先日、コンピュータサイエンス研究と実践コミュニティのバズワードになった。
我々は、ディープラーニングモデルによって悪用されるのを防ぐために、オープンソースのコードを保護する効果的なメカニズムを発明する必要があると論じている。
私たちの大規模な実験は、CoProtectorがその目的を達成するのに効果的であることを実証的に示しています。
論文 参考訳(メタデータ) (2021-10-25T13:01:41Z) - Protecting Anonymous Speech: A Generative Adversarial Network
Methodology for Removing Stylistic Indicators in Text [2.9005223064604078]
我々は,生成的敵ネットワークの構築によるオーサリングの匿名化への新たなアプローチを開発する。
完全自動方式は,コンテンツ保存や流布の点で他の手法と同等の結果が得られる。
我々のアプローチは、オープンセットの文脈に順応し、これまで遭遇したことのない著者の文章を匿名化することができる。
論文 参考訳(メタデータ) (2021-10-18T17:45:56Z) - A Girl Has A Name: Detecting Authorship Obfuscation [12.461503242570643]
著者の属性は、テクストの分析に基づいてテキストの著者を特定することを目的としている。
著者の難読化は、テキストのスタイルを変更することによって著者の帰属を防ぐことを目的としている。
我々は、敵の脅威モデルの下で、最先端のオーサシップ難読化手法のステルス性を評価する。
論文 参考訳(メタデータ) (2020-05-02T04:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。