論文の概要: LLM-CI: Assessing Contextual Integrity Norms in Language Models
- arxiv url: http://arxiv.org/abs/2409.03735v1
- Date: Thu, 5 Sep 2024 17:50:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:33:34.841377
- Title: LLM-CI: Assessing Contextual Integrity Norms in Language Models
- Title(参考訳): LLM-CI:言語モデルにおける文脈積分ノルムの評価
- Authors: Yan Shvartzshnaider, Vasisht Duddu, John Lacalamita,
- Abstract要約: 大規模言語モデル(LLM)は、社会的嗜好や規範を意図せずに符号化することができる。
これは、プロンプトの感度が$$$$小であることから特に困難である。
LLM-CIは、符号化された規範を評価するための最初のオープンソースフレームワークである。
- 参考スコア(独自算出の注目度): 1.1715858161748576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), while memorizing parts of their training data scraped from the Internet, may also inadvertently encode societal preferences and norms. As these models are integrated into sociotechnical systems, it is crucial that the norms they encode align with societal expectations. These norms could vary across models, hyperparameters, optimization techniques, and datasets. This is especially challenging due to prompt sensitivity$-$small variations in prompts yield different responses, rendering existing assessment methodologies unreliable. There is a need for a comprehensive framework covering various models, optimization, and datasets, along with a reliable methodology to assess encoded norms. We present LLM-CI, the first open-sourced framework to assess privacy norms encoded in LLMs. LLM-CI uses a Contextual Integrity-based factorial vignette methodology to assess the encoded norms across different contexts and LLMs. We propose the multi-prompt assessment methodology to address prompt sensitivity by assessing the norms from only the prompts that yield consistent responses across multiple variants. Using LLM-CI and our proposed methodology, we comprehensively evaluate LLMs using IoT and COPPA vignettes datasets from prior work, examining the impact of model properties (e.g., hyperparameters, capacity) and optimization strategies (e.g., alignment, quantization).
- Abstract(参考訳): 大規模言語モデル(LLM)は、インターネットから取り除かれたトレーニングデータの一部を記憶する一方で、社会的嗜好や規範を意図せずに符号化することもある。
これらのモデルが社会技術システムに統合されるため、それらが符号化する規範は社会的期待と整合することが不可欠である。
これらの規範は、モデル、ハイパーパラメータ、最適化テクニック、データセットによって異なる可能性がある。
これは特に、プロンプトの感度が$$$$小であることから、既存の評価手法の信頼性を損なうためである。
さまざまなモデル、最適化、データセットをカバーする包括的なフレームワークと、エンコードされた規範を評価するための信頼性の高い方法論が必要である。
LLM-CIは,LLMに符号化されたプライバシ規範を評価するための,最初のオープンソースフレームワークである。
LLM-CIは、コンテキスト積分に基づく因子的ウィグレット手法を使用して、異なるコンテキストとLLMのエンコードされた規範を評価する。
本稿では,複数の変種に対して一貫した応答を与えるプロンプトのみからノルムを評価することで,プロンプト感度に対処するマルチプロンプト評価手法を提案する。
LLM-CI と提案手法を用いて,IoT および COPPA ビグネッツデータセットを用いた LLM の総合評価を行い,モデル特性(例えば,ハイパーパラメータ,キャパシティ)と最適化戦略(例えば,アライメント,量子化)の影響について検討した。
関連論文リスト
- Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。
内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。
選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文 参考訳(メタデータ) (2025-02-11T08:05:56Z) - Real-Time Privacy Risk Measurement with Privacy Tokens for Gradient Leakage [15.700803673467641]
プライバシーに敏感なドメインにおけるディープラーニングモデルは、プライバシーリスクに関する懸念を増幅している。
トレーニング中にプライベート勾配から直接導出されるプライバシートークンの概念を提案する。
プライバシートークンは、トレーニングデータからのプライベート情報漏洩の程度に関する貴重な洞察を提供する。
我々は、トレーニングデータと勾配の関係を定量化するために、Mutual Information (MI) をロバストな指標として採用する。
論文 参考訳(メタデータ) (2025-02-05T06:20:20Z) - Underestimated Privacy Risks for Minority Populations in Large Language Model Unlearning [20.018234150653885]
プライバシーの観点から、最悪のシナリオでは、アンラーニングは考慮すべきである、と私たちは主張する。
マイノリティグループは6つの未学習アプローチで、ほとんどの場合、少なくとも20%以上のプライバシー漏洩を経験します。
論文 参考訳(メタデータ) (2024-12-11T17:22:07Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - Preserving Privacy in Large Language Models: A Survey on Current Threats and Solutions [12.451936012379319]
大規模言語モデル(LLM)は、人工知能の大幅な進歩を表し、様々な領域にまたがる応用を見つける。
トレーニングのための大規模なインターネットソースデータセットへの依存は、注目すべきプライバシー問題を引き起こす。
特定のアプリケーション固有のシナリオでは、これらのモデルをプライベートデータで微調整する必要があります。
論文 参考訳(メタデータ) (2024-08-10T05:41:19Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Privacy Implications of Retrieval-Based Language Models [26.87950501433784]
本稿では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
パラメトリックモデルよりも、$k$NN-LMsの方がプライベートデータストアから個人情報をリークする可能性が高いことがわかりました。
論文 参考訳(メタデータ) (2023-05-24T08:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。