論文の概要: Knowledge Sanitization of Large Language Models
- arxiv url: http://arxiv.org/abs/2309.11852v2
- Date: Sat, 2 Mar 2024 08:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 20:33:41.927929
- Title: Knowledge Sanitization of Large Language Models
- Title(参考訳): 大規模言語モデルの知識衛生化
- Authors: Yoichi Ishibashi, Hidetoshi Shimodaira
- Abstract要約: 大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。
我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
- 参考スコア(独自算出の注目度): 4.722882736419499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore a knowledge sanitization approach to mitigate the privacy concerns
associated with large language models (LLMs). LLMs trained on a large corpus of
Web data can memorize and potentially reveal sensitive or confidential
information, raising critical security concerns. Our technique efficiently
fine-tunes these models using the Low-Rank Adaptation (LoRA) method, prompting
them to generate harmless responses such as ``I don't know'' when queried about
specific information. Experimental results in a closed-book question-answering
task show that our straightforward method not only minimizes particular
knowledge leakage but also preserves the overall performance of LLMs. These two
advantages strengthen the defense against extraction attacks and reduces the
emission of harmful content such as hallucinations.
- Abstract(参考訳): 我々は,大規模言語モデル(llm)に関連するプライバシの懸念を軽減するための知識衛生手法を検討する。
Webデータの大規模なコーパスでトレーニングされたLLMは、機密情報や機密情報を記憶し、潜在的に明らかにし、重要なセキュリティ上の懸念を引き起こす可能性がある。
提案手法は,低ランク適応 (lora) 法を用いて,これらのモデルを効率的に微調整し,特定の情報について質問した場合に「知らない」などの無害な応答を発生させる。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLM全体の性能も維持できることがわかった。
これらの2つのアドバンテージは、抽出攻撃に対する防御を強化し、幻覚などの有害なコンテンツの排出を減らす。
関連論文リスト
- HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router [42.222681564769076]
我々はHiddenGuardを紹介した。HiddenGuardは大規模言語モデルにおいて、きめ細かな安全な生成のための新しいフレームワークである。
HiddenGuard には LLM と連携して動作する Prism が組み込まれている。
実験の結果,HiddenGuardはF1スコアの90%以上を達成し,有害なコンテンツを検出・再現することがわかった。
論文 参考訳(メタデータ) (2024-10-03T17:10:41Z) - Robustifying Safety-Aligned Large Language Models through Clean Data Curation [11.273749179260468]
大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性がある。
本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:50:38Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Towards Safer Large Language Models through Machine Unlearning [19.698620794387338]
SKU(Selective Knowledge Unlearning)は、有害な知識を排除し、通常のプロンプトで実用性を維持するために設計されている。
第1段階は、モデル内の有害な知識を特定し、取得することを目的としており、第2段階は、この知識を取り除くことを目的としている。
本実験は,有害情報除去と有効性維持のバランス点をSKUが特定できることを実証した。
論文 参考訳(メタデータ) (2024-02-15T16:28:34Z) - Knowledge Verification to Nip Hallucination in the Bud [69.79051730580014]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z) - Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。
トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。
抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (2022-10-04T10:18:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。