論文の概要: An In-Depth Investigation of Data Collection in LLM App Ecosystems
- arxiv url: http://arxiv.org/abs/2408.13247v2
- Date: Wed, 21 May 2025 17:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:56.817968
- Title: An In-Depth Investigation of Data Collection in LLM App Ecosystems
- Title(参考訳): LLMアプリケーションエコシステムにおけるデータ収集の詳細な検討
- Authors: Yuhao Wu, Evin Jaff, Ke Yang, Ning Zhang, Umar Iqbal,
- Abstract要約: OpenAIのGPTアプリエコシステムをケーススタディとして検討する。
我々は,GPTアクションの自然言語仕様を分析し,それらのデータ収集の実践を評価するLLMベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.357971856302576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM app (tool) ecosystems are rapidly evolving to support sophisticated use cases that often require extensive user data collection. Given that LLM apps are developed by third parties and anecdotal evidence indicating inconsistent enforcement of policies by LLM platforms, sharing user data with these apps presents significant privacy risks. In this paper, we aim to bring transparency in data practices of LLM app ecosystems. We examine OpenAI's GPT app ecosystem as a case study. We propose an LLM-based framework to analyze the natural language specifications of GPT Actions (custom tools) and assess their data collection practices. Our analysis reveals that Actions collect excessive data across 24 categories and 145 data types, with third-party Actions collecting 6.03% more data on average. We find that several Actions violate OpenAI's policies by collecting sensitive information, such as passwords, which is explicitly prohibited by OpenAI. Lastly, we develop an LLM-based privacy policy analysis framework to automatically check the consistency of data collection by Actions with disclosures in their privacy policies. Our measurements indicate that the disclosures for most of the collected data types are omitted, with only 5.8% of Actions clearly disclosing their data collection practices.
- Abstract(参考訳): LLMアプリケーション(ツール)エコシステムは、広範囲なユーザデータ収集を必要とする高度なユースケースをサポートするために、急速に進化しています。
LLMアプリがサードパーティによって開発されており、LDMプラットフォームによるポリシーの一貫性のない実施を示す逸話的な証拠があることを考えると、これらのアプリとユーザデータを共有することは、重大なプライバシーリスクをもたらす。
本稿では,LLMアプリのエコシステムにおけるデータプラクティスの透明性の実現を目標とする。
OpenAIのGPTアプリエコシステムをケーススタディとして検討する。
我々は,GPTアクションの自然言語仕様を解析し,それらのデータ収集の実践を評価するLLMベースのフレームワークを提案する。
我々の分析によると、Actionsは24のカテゴリと145のデータタイプにまたがって過剰なデータを収集しており、サードパーティのActionsは平均6.03%以上のデータを収集している。
いくつかのアクションは、OpenAIが明示的に禁止しているパスワードなどの機密情報を収集することで、OpenAIのポリシーに違反している。
最後に、プライバシーポリシーの開示を伴うアクションによるデータ収集の一貫性を自動的にチェックするLLMベースのプライバシポリシ分析フレームワークを開発する。
我々の測定では、収集されたデータタイプのほとんどに対する開示は省略され、Actionsのわずか5.8%がデータ収集のプラクティスを明確に開示している。
関連論文リスト
- REALM: A Dataset of Real-World LLM Use Cases [69.57194370666876]
REALMはRedditやニュース記事から収集された94,000 LLMのユースケースのデータセットである。
RealmはLLMの多様な応用とユーザの人口統計の2つの重要な側面を捉えている。
LLMアプリケーションを分類し、ユーザの職業が使用するアプリケーションの種類とどのように関連しているかを調査する。
論文 参考訳(メタデータ) (2025-03-24T15:39:25Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Entailment-Driven Privacy Policy Classification with LLMs [3.564208334473993]
本稿では,プライバシーポリシーの段落をユーザが容易に理解できる意味のあるラベルに分類する枠組みを提案する。
私たちのフレームワークは、F1スコアを平均11.2%改善します。
論文 参考訳(メタデータ) (2024-09-25T05:07:05Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。
LLMはそのような抽出において従来の方法より優れている。
即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Federated Domain-Specific Knowledge Transfer on Large Language Models Using Synthetic Data [53.70870879858533]
フェデレートされたドメイン固有の知識伝達フレームワークを紹介する。
クライアントのデータプライバシを保護しながら、LLMからSLMへのドメイン固有の知識転送を可能にする。
提案されたFDKTフレームワークは、プライバシー予算が10未満のSLMのタスクパフォーマンスを約5%改善する。
論文 参考訳(メタデータ) (2024-05-23T06:14:35Z) - On Protecting the Data Privacy of Large Language Models (LLMs): A Survey [35.48984524483533]
LLM(Large Language Model)は、人間の言語を理解し、生成し、翻訳できる複雑な人工知能システムである。
LLMは大量のデータを処理して生成し、データプライバシを脅かす可能性がある。
論文 参考訳(メタデータ) (2024-03-08T08:47:48Z) - Large Language Models for Data Annotation: A Survey [49.8318827245266]
LLM(Advanced Large Language Models)の出現は、データアノテーションの複雑なプロセスを自動化する前例のない機会を提供する。
この調査には、LLMが注釈付けできるデータタイプの詳細な分類、LLM生成アノテーションを利用したモデルの学習戦略のレビュー、データアノテーションにLLMを使用する際の主な課題と制限に関する詳細な議論が含まれている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models [42.20437015301152]
言語モデル(LM)のプライバシー漏洩を評価するベンチマークであるPrivLM-Benchを提案する。
DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-07T14:55:52Z) - PolicyGPT: Automated Analysis of Privacy Policies with Large Language
Models [41.969546784168905]
実際に使う場合、ユーザーは慎重に読むのではなく、Agreeボタンを直接クリックする傾向がある。
このプラクティスは、プライバシーの漏洩や法的問題のリスクにユーザをさらけ出す。
近年,ChatGPT や GPT-4 などの大規模言語モデル (LLM) が出現し,テキスト解析の新たな可能性が高まっている。
論文 参考訳(メタデータ) (2023-09-19T01:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。