論文の概要: Investigating Privacy Bias in Training Data of Language Models
- arxiv url: http://arxiv.org/abs/2409.03735v2
- Date: Wed, 05 Feb 2025 12:31:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 16:28:50.664832
- Title: Investigating Privacy Bias in Training Data of Language Models
- Title(参考訳): 言語モデルの学習データにおけるプライバシーバイアスの調査
- Authors: Yan Shvartzshnaider, Vasisht Duddu,
- Abstract要約: プライバシーバイアス(英: privacy bias)とは、あるコンテキスト内で情報の流れが適切に流れる際の歪を指す。
このスキューは、既存の期待に沿うか、システムの問題の症状を示すかもしれない。
文脈整合性に基づく手法を用いてプライバシーバイアスを評価する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.3167450470598043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs are integrated into sociotechnical systems, it is crucial to examine the privacy biases they exhibit. A privacy bias refers to the skew in the appropriateness of information flows within a given context that LLMs acquire from large amounts of non-publicly available training data. This skew may either align with existing expectations or signal a symptom of systemic issues reflected in the training datasets. We formulate a novel research question: how can we examine privacy biases in the training data of LLMs? We present a novel approach to assess the privacy biases using a contextual integrity-based methodology to evaluate the responses from different LLMs. Our approach accounts for the sensitivity of responses across prompt variations, which hinders the evaluation of privacy biases. We investigate how privacy biases are affected by model capacities and optimizations.
- Abstract(参考訳): LLMは社会技術システムに統合されているため、彼らが提示するプライバシーバイアスを調べることが不可欠である。
プライバシバイアス(英: privacy bias)とは、LLMが公開されていない大量のトレーニングデータから取得した、所定のコンテキスト内での情報フローの適切性における歪を指す。
このスキューは、既存の期待に沿うか、トレーニングデータセットに反映されたシステム上の問題の症状を示す可能性がある。
LLMのトレーニングデータのプライバシーバイアスをどうやって調べられるのか?
本稿では,異なるLCMからの応答を評価するためのコンテキスト整合性に基づく手法を用いて,プライバシーバイアスを評価する新しい手法を提案する。
当社のアプローチは,迅速な応答の感度を考慮し,プライバシバイアスの評価を妨げている。
モデル容量と最適化によるプライバシーバイアスの影響について検討する。
関連論文リスト
- PrivaCI-Bench: Evaluating Privacy with Contextual Integrity and Legal Compliance [44.287734754038254]
生成型大規模言語モデル(LLM)のコンテキストプライバシ評価ベンチマークであるPrivaCI-Benchを提案する。
本稿では,最近の推論モデルQwQ-32BとDeepseek R1を含む最新のLCMを評価した。
実験の結果、LLMは特定のコンテキスト内で重要なCIパラメータを効果的にキャプチャできるが、プライバシコンプライアンスのさらなる進歩が必要であることが示唆された。
論文 参考訳(メタデータ) (2025-02-24T10:49:34Z) - Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Real-Time Privacy Risk Measurement with Privacy Tokens for Gradient Leakage [15.700803673467641]
プライバシーに敏感なドメインにおけるディープラーニングモデルは、プライバシーリスクに関する懸念を増幅している。
トレーニング中にプライベート勾配から直接導出されるプライバシートークンの概念を提案する。
プライバシートークンは、トレーニングデータからのプライベート情報漏洩の程度に関する貴重な洞察を提供する。
我々は、トレーニングデータと勾配の関係を定量化するために、Mutual Information (MI) をロバストな指標として採用する。
論文 参考訳(メタデータ) (2025-02-05T06:20:20Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。
本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。
我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文 参考訳(メタデータ) (2024-10-19T17:27:38Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions [12.451936012379319]
大規模言語モデル(LLM)は、人工知能の大幅な進歩を表し、様々な領域にまたがる応用を見つける。
トレーニングのための大規模なインターネットソースデータセットへの依存は、注目すべきプライバシー問題を引き起こす。
特定のアプリケーション固有のシナリオでは、これらのモデルをプライベートデータで微調整する必要があります。
論文 参考訳(メタデータ) (2024-08-10T05:41:19Z) - Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models [43.56644186785491]
本稿では,大規模言語モデルが生成するコードの品質を包括的に評価する RACE ベンチマークを提案する。
RACEに基づいて28の代表的なLCMを分析し、現在の正しさ中心のベンチマークでは、実世界のシナリオにおけるコードの多面的要求をキャプチャできないことを発見した。
論文 参考訳(メタデータ) (2024-07-16T08:08:48Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Large Language Model (LLM) Bias Index -- LLMBI [0.0]
LLMBI(Large Language Model Bias Index)は、大規模言語モデル(LLM)に固有のバイアスを定量化し、対処するための先駆的なアプローチである。
年齢,性別,人種的偏見に限らず,多次元の偏見を取り入れた複合スコアリングシステムを用いたLLMBIの定式化を行った。
OpenAIのAPIからの応答を用いた実証分析では,バイアス検出の代表的な方法として,高度な感情分析を採用している。
論文 参考訳(メタデータ) (2023-12-22T15:38:13Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Privacy Implications of Retrieval-Based Language Models [26.87950501433784]
本稿では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
パラメトリックモデルよりも、$k$NN-LMsの方がプライベートデータストアから個人情報をリークする可能性が高いことがわかりました。
論文 参考訳(メタデータ) (2023-05-24T08:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。