論文の概要: Data Exposure from LLM Apps: An In-depth Investigation of OpenAI's GPTs
- arxiv url: http://arxiv.org/abs/2408.13247v1
- Date: Fri, 23 Aug 2024 17:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 14:11:01.025812
- Title: Data Exposure from LLM Apps: An In-depth Investigation of OpenAI's GPTs
- Title(参考訳): LLMアプリからのデータ公開:OpenAIのGPTの詳細な調査
- Authors: Evin Jaff, Yuhao Wu, Ning Zhang, Umar Iqbal,
- Abstract要約: 本稿は,LLMアプリのデータプラクティスにおける透明性の実現を目的とする。
OpenAIのGPTアプリエコシステムを研究します。
パスワードなどのOpenAIが禁止している機密情報を含む,ユーザに関する広範囲なデータを収集する。
- 参考スコア(独自算出の注目度): 17.433387980578637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM app ecosystems are quickly maturing and supporting a wide range of use cases, which requires them to collect excessive user data. Given that the LLM apps are developed by third-parties and that anecdotal evidence suggests LLM platforms currently do not strictly enforce their policies, user data shared with arbitrary third-parties poses a significant privacy risk. In this paper we aim to bring transparency in data practices of LLM apps. As a case study, we study OpenAI's GPT app ecosystem. We develop an LLM-based framework to conduct the static analysis of natural language-based source code of GPTs and their Actions (external services) to characterize their data collection practices. Our findings indicate that Actions collect expansive data about users, including sensitive information prohibited by OpenAI, such as passwords. We find that some Actions, including related to advertising and analytics, are embedded in multiple GPTs, which allow them to track user activities across GPTs. Additionally, co-occurrence of Actions exposes as much as 9.5x more data to them, than it is exposed to individual Actions. Lastly, we develop an LLM-based privacy policy analysis framework to automatically check the consistency of data collection by Actions with disclosures in their privacy policies. Our measurements indicate that the disclosures for most of the collected data types are omitted in privacy policies, with only 5.8% of Actions clearly disclosing their data collection practices.
- Abstract(参考訳): LLMアプリのエコシステムは急速に成熟し、幅広いユースケースをサポートしています。
LLMアプリはサードパーティによって開発されており、LCMプラットフォームがポリシーを厳格に強制していないという逸話的な証拠があることを考えると、任意のサードパーティと共有されるユーザデータは、重大なプライバシーリスクをもたらす。
本稿では,LLMアプリのデータプラクティスに透明性を持たせることを目的とする。
ケーススタディとして、OpenAIのGPTアプリエコシステムを調査します。
我々は,GPTの自然言語に基づくソースコードとその動作(外部サービス)を静的に解析し,データ収集の実践を特徴付けるLLMベースのフレームワークを開発した。
その結果,Actionsは,パスワードなどのOpenAIが禁止している機密情報を含む,ユーザに関する広範囲なデータを収集していることがわかった。
広告や分析に関するいくつかのアクションは、複数のGPTに埋め込まれており、GPT全体でユーザアクティビティを追跡することができる。
さらに、アクションの共起は、個々のアクションに暴露されるよりも、最大9.5倍多くのデータを公開する。
最後に、プライバシーポリシーの開示を伴うアクションによるデータ収集の一貫性を自動的にチェックするLLMベースのプライバシポリシ分析フレームワークを開発する。
我々の測定によると、収集されたデータ型の大半の開示はプライバシーポリシーで省略されており、5.8%のアクションが明らかにデータ収集のプラクティスを開示している。
関連論文リスト
- Entailment-Driven Privacy Policy Classification with LLMs [3.564208334473993]
本稿では,プライバシーポリシーの段落をユーザが容易に理解できる意味のあるラベルに分類する枠組みを提案する。
私たちのフレームワークは、F1スコアを平均11.2%改善します。
論文 参考訳(メタデータ) (2024-09-25T05:07:05Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。
LLMはそのような抽出において従来の方法より優れている。
即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data [53.70870879858533]
フェデレートされたドメイン固有の知識伝達フレームワークを紹介する。
クライアントのデータプライバシを保護しながら、LLMからSLMへのドメイン固有の知識転送を可能にする。
提案されたFDKTフレームワークは、プライバシー予算が10未満のSLMのタスクパフォーマンスを約5%改善する。
論文 参考訳(メタデータ) (2024-05-23T06:14:35Z) - On Protecting the Data Privacy of Large Language Models (LLMs): A Survey [35.48984524483533]
LLM(Large Language Model)は、人間の言語を理解し、生成し、翻訳できる複雑な人工知能システムである。
LLMは大量のデータを処理して生成し、データプライバシを脅かす可能性がある。
論文 参考訳(メタデータ) (2024-03-08T08:47:48Z) - Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。
この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models [42.20437015301152]
言語モデル(LM)のプライバシー漏洩を評価するベンチマークであるPrivLM-Benchを提案する。
DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-07T14:55:52Z) - PolicyGPT: Automated Analysis of Privacy Policies with Large Language
Models [41.969546784168905]
実際に使う場合、ユーザーは慎重に読むのではなく、Agreeボタンを直接クリックする傾向がある。
このプラクティスは、プライバシーの漏洩や法的問題のリスクにユーザをさらけ出す。
近年,ChatGPT や GPT-4 などの大規模言語モデル (LLM) が出現し,テキスト解析の新たな可能性が高まっている。
論文 参考訳(メタデータ) (2023-09-19T01:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。