論文の概要: User Privacy and Large Language Models: An Analysis of Frontier Developers' Privacy Policies
- arxiv url: http://arxiv.org/abs/2509.05382v1
- Date: Fri, 05 Sep 2025 01:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.484077
- Title: User Privacy and Large Language Models: An Analysis of Frontier Developers' Privacy Policies
- Title(参考訳): ユーザプライバシと大規模言語モデル:フロンティア開発者のプライバシポリシの分析
- Authors: Jennifer King, Kevin Klyman, Emily Capstick, Tiffany Saade, Victoria Hsieh,
- Abstract要約: 本稿では、米国の6人のフロンティアAI開発者のプライバシーポリシーを分析し、ユーザーのチャットを使ってモデルをトレーニングする方法を理解する。
6人の開発者全員が、デフォルトでモデルのトレーニングと改善にユーザのチャットデータを使用していることに気付きました。
開発者のプライバシポリシにはプラクティスに関する重要な情報がなく,透明性と説明責任の向上の必要性が強調されることが多い。
- 参考スコア(独自算出の注目度): 1.59424536577914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hundreds of millions of people now regularly interact with large language models via chatbots. Model developers are eager to acquire new sources of high-quality training data as they race to improve model capabilities and win market share. This paper analyzes the privacy policies of six U.S. frontier AI developers to understand how they use their users' chats to train models. Drawing primarily on the California Consumer Privacy Act, we develop a novel qualitative coding schema that we apply to each developer's relevant privacy policies to compare data collection and use practices across the six companies. We find that all six developers appear to employ their users' chat data to train and improve their models by default, and that some retain this data indefinitely. Developers may collect and train on personal information disclosed in chats, including sensitive information such as biometric and health data, as well as files uploaded by users. Four of the six companies we examined appear to include children's chat data for model training, as well as customer data from other products. On the whole, developers' privacy policies often lack essential information about their practices, highlighting the need for greater transparency and accountability. We address the implications of users' lack of consent for the use of their chat data for model training, data security issues arising from indefinite chat data retention, and training on children's chat data. We conclude by providing recommendations to policymakers and developers to address the data privacy challenges posed by LLM-powered chatbots.
- Abstract(参考訳): 今や何十万人もの人々がチャットボットを介して、大きな言語モデルと定期的に対話しています。
モデル開発者は、モデル機能を改善し市場シェアを獲得するために、高品質なトレーニングデータの新たなソースを取得することを熱望しています。
本稿では、米国の6人のフロンティアAI開発者のプライバシーポリシーを分析し、ユーザーのチャットを使ってモデルをトレーニングする方法を理解する。
主にカリフォルニア消費者プライバシ法に基づいて、各開発者の関連するプライバシポリシに適用される、新たな定性的なコーディングスキーマを開発し、データ収集と6社間のプラクティスを比較します。
6人の開発者全員が、デフォルトでモデルのトレーニングと改善にユーザのチャットデータを使用していることに気付きました。
開発者はチャットで開示された個人情報(生体情報や健康データなどの機密情報、ユーザーによってアップロードされたファイルなど)を収集し、トレーニングすることができる。
調査した6社のうち4社は、モデルのトレーニングのための子供のチャットデータと、他の製品からの顧客データを含んでいるようだ。
全体として、開発者のプライバシポリシにはプラクティスに関する重要な情報がなく、透明性と説明責任の向上の必要性を強調していることが多い。
モデルトレーニングや,不確定なチャットデータ保持によるデータセキュリティ問題,子どものチャットデータに対するトレーニングなどにおいて,ユーザの同意の欠如がもたらす影響について考察する。
LLMを利用したチャットボットによって引き起こされるデータのプライバシー問題に対処するために、政策立案者や開発者に勧告を提供することで、私たちは結論付けます。
関連論文リスト
- Guarding Your Conversations: Privacy Gatekeepers for Secure Interactions with Cloud-Based AI Models [0.34998703934432673]
ユーザクエリから機密情報をフィルタリングする,軽量でローカルな実行モデルであるLLMゲートキーパのコンセプトを提案する。
人間の被験者による実験を通して、この二重モデルアプローチは、LLM応答の品質を損なうことなく、ユーザのプライバシーを大幅に向上させながら、最小限のオーバーヘッドをもたらすことを示した。
論文 参考訳(メタデータ) (2025-08-22T19:49:03Z) - Understanding Privacy Norms Around LLM-Based Chatbots: A Contextual Integrity Perspective [14.179623604712065]
我々は,300人のChatGPTユーザを対象に,ChatGPTデータの共有に関するプライバシー規範の出現を理解するための調査実験を行った。
以上の結果から,ユーザの関心事と行動との間には大きな隔たりがあることが判明した。
参加者は、200ドル相当のプレミアム機能と引き換えに、改善されたサービスのための個人情報の共有を一斉に拒否した。
論文 参考訳(メタデータ) (2025-08-09T00:22:46Z) - Controlling What You Share: Assessing Language Model Adherence to Privacy Preferences [80.63946798650653]
プライバシプロファイルを使用してデータのコントロールを継続する方法について検討する。
ローカルモデルがこれらの命令を使ってクエリを書き換えるフレームワークを構築します。
本研究を支援するために,実ユーザクエリの多言語データセットを導入し,プライベートコンテンツをマークする。
論文 参考訳(メタデータ) (2025-07-07T18:22:55Z) - Are LLM-based methods good enough for detecting unfair terms of service? [67.49487557224415]
大規模言語モデル(LLM)は、長いテキストベースの文書を解析するのに適している。
プライバシーポリシーの集合に対して個別に適用された12の質問からなるデータセットを構築します。
いくつかのオープンソースモデルは、いくつかの商用モデルと比較して高い精度を提供できる。
論文 参考訳(メタデータ) (2024-08-24T09:26:59Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Protecting User Privacy in Online Settings via Supervised Learning [69.38374877559423]
我々は、教師付き学習を活用する、オンラインプライバシ保護に対するインテリジェントなアプローチを設計する。
ユーザのプライバシを侵害する可能性のあるデータ収集を検出してブロックすることにより、ユーザに対してある程度のディジタルプライバシを復元することが可能になります。
論文 参考訳(メタデータ) (2023-04-06T05:20:16Z) - FedBot: Enhancing Privacy in Chatbots with Federated Learning [0.0]
Federated Learning(FL)は、データをその場所に保持する分散学習方法を通じて、データのプライバシを保護することを目的としている。
POCはDeep Bidirectional Transformerモデルとフェデレーション学習アルゴリズムを組み合わせて、コラボレーティブモデルトレーニング中の顧客のデータプライバシを保護する。
このシステムは、過去のインタラクションから学習する能力を活用することで、時間とともにパフォーマンスと精度を向上させるように設計されている。
論文 参考訳(メタデータ) (2023-04-04T23:13:52Z) - Certified Data Removal in Sum-Product Networks [78.27542864367821]
収集したデータの削除は、データのプライバシを保証するのに不十分であることが多い。
UnlearnSPNは、訓練された総生産ネットワークから単一データポイントの影響を取り除くアルゴリズムである。
論文 参考訳(メタデータ) (2022-10-04T08:22:37Z) - You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z) - Security and Privacy Preserving Deep Learning [2.322461721824713]
ディープラーニングに必要な膨大なデータ収集は、明らかにプライバシーの問題を提示している。
写真や音声録音などの、個人的かつ高感度なデータは、収集する企業によって無期限に保持される。
深層ニューラルネットワークは、トレーニングデータに関する情報を記憶するさまざまな推論攻撃の影響を受けやすい。
論文 参考訳(メタデータ) (2020-06-23T01:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。