論文の概要: An Invariant Latent Space Perspective on Language Model Inversion
- arxiv url: http://arxiv.org/abs/2511.19569v1
- Date: Mon, 24 Nov 2025 17:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.10214
- Title: An Invariant Latent Space Perspective on Language Model Inversion
- Title(参考訳): 言語モデルインバージョンにおける不変ラテント空間の展望
- Authors: Wentao Ye, Jiaqi Hu, Haobo Wang, Xinpeng Ti, Zhiqing Xiao, Hao Chen, Liyao Li, Lei Feng, Sai Wu, Junbo Zhao,
- Abstract要約: 言語モデルの反転(LMI)は、ユーザのプライバシとシステムセキュリティに対する具体的な脅威として現れます。
我々は LMI を LLM の潜在空間の再利用として再考する。
本稿では,LLMを不変デコーダとして扱うInv2Aについて述べる。
- 参考スコア(独自算出の注目度): 36.67761868761135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model inversion (LMI), i.e., recovering hidden prompts from outputs, emerges as a concrete threat to user privacy and system security. We recast LMI as reusing the LLM's own latent space and propose the Invariant Latent Space Hypothesis (ILSH): (1) diverse outputs from the same source prompt should preserve consistent semantics (source invariance), and (2) input<->output cyclic mappings should be self-consistent within a shared latent space (cyclic invariance). Accordingly, we present Inv^2A, which treats the LLM as an invariant decoder and learns only a lightweight inverse encoder that maps outputs to a denoised pseudo-representation. When multiple outputs are available, they are sparsely concatenated at the representation layer to increase information density. Training proceeds in two stages: contrastive alignment (source invariance) and supervised reinforcement (cyclic invariance). An optional training-free neighborhood search can refine local performance. Across 9 datasets covering user and system prompt scenarios, Inv^2A outperforms baselines by an average of 4.77% BLEU score while reducing dependence on large inverse corpora. Our analysis further shows that prevalent defenses provide limited protection, underscoring the need for stronger strategies. The source code and data involved in this paper can be found in https://github.com/yyy01/Invariant_Attacker.
- Abstract(参考訳): 言語モデルインバージョン(LMI)、すなわち、出力から隠されたプロンプトを復元することは、ユーザのプライバシとシステムセキュリティに対する具体的な脅威として現れる。
我々は LMI を LLM 自身の潜在空間の再利用として再考し、(1) 同一ソースプロンプトからの多様な出力は一貫性のある意味論(ソース不変性)を維持し、(2) 入力<->出力巡回写像は共有潜在空間(環状不変性)内で自己整合性を持つべきである。
そこで,LLMを不変デコーダとして扱い,出力を擬似表現にマッピングする軽量逆エンコーダのみを学習するInv^2Aを提案する。
複数の出力が利用可能になると、情報密度を高めるために、表現層に疎結合になる。
トレーニングは、対照的なアライメント(ソースの不変性)と教師付き強化(循環的不変性)の2段階で行われる。
任意のトレーニングなしの地区探索は、局所的なパフォーマンスを改善できる。
ユーザとシステムのプロンプトシナリオをカバーする9つのデータセットのうち、Inv^2Aはベースラインを平均4.77%のBLEUスコアで上回り、大きな逆コーパスへの依存を減らす。
我々の分析は、優勢な防衛が限定的な防御を提供し、より強力な戦略の必要性を強調していることを示している。
本論文のソースコードとデータはhttps://github.com/yyy01/Invariant_Attacker.comで公開されている。
関連論文リスト
- Decoding in Latent Spaces for Efficient Inference in LLM-based Recommendation [75.72196852363116]
光遅延空間復号法(L2D)は効率的かつ効率的な遅延空間復号法である。
L2Dは言語空間の復号化よりも10倍以上高速で、性能の維持や向上が可能である。
論文 参考訳(メタデータ) (2025-09-15T02:30:35Z) - Investigating the Invertibility of Multimodal Latent Spaces: Limitations of Optimization-Based Methods [0.0]
本稿では,タスク固有AI(Artificial Intelligence)モデルにおけるマルチモーダル潜在空間の逆機能とより広範な有用性について検討する。
我々の中心的な仮説は、最適化はモデルを逆問題へと導くことができるが、それらの多モード潜在空間は意味論的かつ知覚的コヒーレントな逆写像を一貫してサポートしない。
我々の研究は、真に意味的にリッチで可逆なマルチモーダル潜在空間を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-30T18:19:11Z) - Model Inversion in Split Learning for Personalized LLMs: New Insights from Information Bottleneck Theory [11.83473842859642]
この研究は、パーソナライズされたLLMのための分割学習フレームワークにおいて、モデル反転攻撃を識別する最初のものである。
本稿では,第1部が埋め込み空間に表現を投影する2段階攻撃システムを提案し,第2部は生成モデルを用いて埋め込み空間からテキストを復元する。
論文 参考訳(メタデータ) (2025-01-10T13:47:13Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Reflective Decoding: Beyond Unidirectional Generation with Off-the-Shelf
Language Models [63.808843089941405]
大規模な事前訓練された言語モデル(LM)は、顕著な品質のテキストを生成するが、左から右へ連続的にしか生成しない。
非順序タスクへの一方向LMの直接適用を可能にする新しい教師なしアルゴリズムであるReflective Decodingを提案する。
2段階のアプローチでは、監視もパラレルコーパスも必要ありません。
論文 参考訳(メタデータ) (2020-10-16T18:02:07Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。