Fugu-MT 論文翻訳(概要): Understanding Privacy Risks of Embeddings Induced by Large Language Models

論文の概要: Understanding Privacy Risks of Embeddings Induced by Large Language Models

arxiv url: http://arxiv.org/abs/2404.16587v1
Date: Thu, 25 Apr 2024 13:10:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 13:40:12.223732
Title: Understanding Privacy Risks of Embeddings Induced by Large Language Models
Title（参考訳）: 大規模言語モデルによる埋め込みのプライバシーリスクの理解
Authors: Zhihao Zhu, Ninglu Shao, Defu Lian, Chenwang Wu, Zheng Liu, Yi Yang, Enhong Chen,
Abstract要約: 大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。 1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
参考スコア（独自算出の注目度）: 75.96257812857554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) show early signs of artificial general intelligence but struggle with hallucinations. One promising solution to mitigate these hallucinations is to store external knowledge as embeddings, aiding LLMs in retrieval-augmented generation. However, such a solution risks compromising privacy, as recent studies experimentally showed that the original text can be partially reconstructed from text embeddings by pre-trained language models. The significant advantage of LLMs over traditional pre-trained models may exacerbate these concerns. To this end, we investigate the effectiveness of reconstructing original knowledge and predicting entity attributes from these embeddings when LLMs are employed. Empirical findings indicate that LLMs significantly improve the accuracy of two evaluated tasks over those from pre-trained models, regardless of whether the texts are in-distribution or out-of-distribution. This underscores a heightened potential for LLMs to jeopardize user privacy, highlighting the negative consequences of their widespread use. We further discuss preliminary strategies to mitigate this risk.
Abstract（参考訳）: 大型言語モデル(LLM)は、人工知能の初期の兆候を示すが幻覚に苦しむ。これらの幻覚を緩和するための有望な解決策の1つは、外的知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。しかし、そのような解決策はプライバシーを損なう危険性があり、最近の研究では、事前訓練された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。 LLMの従来の訓練済みモデルに対する大きな利点は、これらの懸念を悪化させる可能性がある。そこで本研究では,LSMを用いた場合,元の知識を再構築し,それらの埋め込みからエンティティ属性を予測することの有効性について検討する。実験結果から, LLMは, テキストが配布内であるか, 配布外であるかに関わらず, 事前学習モデルより2つの評価タスクの精度を有意に向上させることが示された。このことは、LLMがユーザのプライバシを危険にさらす可能性を高め、その普及によるマイナスの結果を浮き彫りにする。このリスクを軽減するための予備的戦略についても議論する。

関連論文リスト

How Do LLM-Generated Texts Impact Term-Based Retrieval Models? [76.92519309816008]
本稿では,大規模言語モデル(LLM)が項ベース検索モデルに与える影響について検討する。言語学的解析により,LLM生成テキストはよりスムーズで低周波なZipf勾配を示すことが明らかとなった。本研究は,項分布がクエリと密接に一致した文書を優先して,項ベース検索モデルがソースバイアスを示すかどうかを考察する。
論文参考訳（メタデータ） (2025-08-25T06:43:27Z)
Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL) 本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文参考訳（メタデータ） (2024-10-16T00:15:40Z)
Can LLMs be Fooled? Investigating Vulnerabilities in LLMs [4.927763944523323]
LLM(Large Language Models)の出現は、自然言語処理(NLP)内の様々な領域で大きな人気を集め、膨大なパワーを誇っている。本稿では,各脆弱性部の知見を合成し,新たな研究・開発の方向性を提案する。現在の脆弱性の焦点を理解することで、将来のリスクを予測し軽減できます。
論文参考訳（メタデータ） (2024-07-30T04:08:00Z)
LLM Processes: Numerical Predictive Distributions Conditioned on Natural Language [35.84181171987974]
我々のゴールは、数値データを処理し、任意の場所で確率的予測を行うレグレッションモデルを構築することである。まず、大規模言語モデルから明示的で一貫性のある数値予測分布を抽出する戦略を探求する。本研究では,テキストを数値予測に組み込む能力を示し,予測性能を改善し,定性的な記述を反映した定量的な構造を与える。
論文参考訳（メタデータ） (2024-05-21T15:13:12Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
Improving Factual Consistency of Text Summarization by Adversarially Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。これらの幻覚は、従来の方法による検出が困難である。 LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文参考訳（メタデータ） (2023-10-30T08:40:16Z)
Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文参考訳（メタデータ） (2023-10-16T14:59:10Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。