論文の概要: Automated Generation of Accurate Privacy Captions From Android Source Code Using Large Language Models
- arxiv url: http://arxiv.org/abs/2601.06276v1
- Date: Fri, 09 Jan 2026 19:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.725581
- Title: Automated Generation of Accurate Privacy Captions From Android Source Code Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたAndroidソースコードからの正確なプライバシカプセルの自動生成
- Authors: Vijayanta Jain, Sepideh Ghanavati, Sai Teja Peddinti, Collin McMillan,
- Abstract要約: プライバシーキャプションとは、個人情報の使い方、使い方、理由を簡潔に記述した短い文章である。
不正確なキャプションはユーザーを誤解させ、デベロッパーに規制上の罰金を課す可能性がある。
既存のプライバシ通知や単にプライバシキャプションを生成するアプローチとしては、アンケート、テンプレート、静的分析、マシンラーニングなどがある。
- 参考スコア(独自算出の注目度): 2.286581990382935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Privacy captions are short sentences that succinctly describe what personal information is used, how it is used, and why, within an app. These captions can be utilized in various notice formats, such as privacy policies, app rationales, and app store descriptions. However, inaccurate captions may mislead users and expose developers to regulatory fines. Existing approaches to generating privacy notices or just privacy captions include using questionnaires, templates, static analysis, or machine learning. However, these approaches either rely heavily on developers' inputs and thus strain their efforts, use limited source code context, leading to the incomplete capture of app privacy behaviors, or depend on potentially inaccurate privacy policies as a source for creating notices. In this work, we address these limitations by developing Privacy Caption Generator (PCapGen), an approach that - i) automatically identifies and extracts large and precise source code context that implements privacy behaviors in an app, ii) uses a Large Language Model (LLM) to describe coarse- and fine-grained privacy behaviors, and iii) generates accurate, concise, and complete privacy captions to describe the privacy behaviors of the app. Our evaluation shows PCapGen generates concise, complete, and accurate privacy captions as compared to the baseline approach. Furthermore, privacy experts choose PCapGen captions at least 71\% of the time, whereas LLMs-as-judge prefer PCapGen captions at least 76\% of the time, indicating strong performance of our approach.
- Abstract(参考訳): プライバシキャプションとは,個人情報の使用状況や使用方法,アプリ内での理由などを簡潔に記述した短い文です。
これらのキャプションは,プライバシポリシやアプリ論理,アプリストアの記述など,さまざまな通知フォーマットで使用することができる。
しかし、不正確なキャプションはユーザーを誤解させ、デベロッパーに規制上の罰金を課す可能性がある。
既存のプライバシ通知や単にプライバシキャプションを生成するアプローチとしては、アンケート、テンプレート、静的分析、マシンラーニングなどがある。
しかしながら、これらのアプローチは開発者の入力に大きく依存しているため、ソースコードコンテキストが制限されているため、アプリのプライバシの動作が不完全になるか、あるいは通知を作成するためのソースとして、潜在的に不正確なプライバシポリシに依存するかのいずれかである。
本研究では,プライバシ・キャプション・ジェネレータ(PCapGen)の開発によって,これらの制約に対処する。
一 アプリのプライバシー行動を実装する大規模かつ正確なソースコードコンテキストを自動的に識別し、抽出すること。
二 大型言語モデル(LLM)を用いて、粗大できめ細かいプライバシー行動を記述すること。
三 アプリのプライバシー行動を記述するために、正確で簡潔で完全なプライバシーキャプションを生成すること。
評価の結果,PCapGenはベースラインアプローチと比較して,簡潔で完全かつ正確なプライバシーキャプションを生成することがわかった。
さらに、プライバシーの専門家は、PCapGenのキャプションを少なくとも71%、LLMs-as-judgeは、PCapGenのキャプションを少なくとも66%、私たちのアプローチの強いパフォーマンスを示している。
関連論文リスト
- Privacy Blur: Quantifying Privacy and Utility for Image Data Release [48.64095568151945]
ガウス的曖昧化の実践的実装は、プライバシーを破るのに十分な可逆性を持っていることを示す。
私たちは、他の3つの難読化アルゴリズムによって提供されるプライバシーとユーティリティのトレードオフを詳しく見ていきます。
ピクセル化とノイズ付加は、多くのコンピュータビジョンタスクのプライバシとユーティリティの両方を提供する。
論文 参考訳(メタデータ) (2025-12-18T02:01:17Z) - Which Code Statements Implement Privacy Behaviors in Android Applications? [5.723067425160506]
ソフトウェアにおけるプライバシ行動(英: "privacy behavior")とは、ソフトウェアがサービスや機能のために個人情報を使用する行為である。
本研究では,3つの大規模言語モデルにデータを加え,プライバシー関連文を自動的に検出する手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T22:20:01Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Towards Fine-Grained Localization of Privacy Behaviors [5.74186288696419]
PriGenは静的解析を使用して、機密情報を処理するAndroidアプリケーションのコードセグメントを識別する。
本稿では,30万のコードセグメントに対する翻訳タスクの初期評価について述べる。
論文 参考訳(メタデータ) (2023-05-24T16:32:14Z) - PriGen: Towards Automated Translation of Android Applications' Code to
Privacy Captions [4.2534846356464815]
PriGenは静的解析を使用して、機密情報を処理するAndroidアプリケーションのコードセグメントを識別する。
我々は,翻訳タスクの初期評価を$sim$300,000のコードセグメントに対して提示する。
論文 参考訳(メタデータ) (2023-05-11T01:14:28Z) - PLUE: Language Understanding Evaluation Benchmark for Privacy Policies
in English [77.79102359580702]
プライバシポリシ言語理解評価ベンチマークは,プライバシポリシ言語理解を評価するマルチタスクベンチマークである。
また、プライバシポリシの大規模なコーパスを収集し、プライバシポリシドメイン固有の言語モデル事前トレーニングを可能にします。
ドメイン固有の連続的な事前トレーニングは、すべてのタスクでパフォーマンスを改善することを実証します。
論文 参考訳(メタデータ) (2022-12-20T05:58:32Z) - SPAct: Self-supervised Privacy Preservation for Action Recognition [73.79886509500409]
アクション認識におけるプライバシー漏洩を緩和するための既存のアプローチは、ビデオデータセットのアクションラベルとともに、プライバシラベルを必要とする。
自己教師付き学習(SSL)の最近の進歩は、未ラベルデータの未発見の可能性を解き放ちつつある。
本稿では、プライバシーラベルを必要とせず、自己管理的な方法で、入力ビデオからプライバシー情報を除去する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T02:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。