論文の概要: Inspecting the Representation Manifold of Differentially-Private Text
- arxiv url: http://arxiv.org/abs/2503.14991v1
- Date: Wed, 19 Mar 2025 08:36:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:14.452256
- Title: Inspecting the Representation Manifold of Differentially-Private Text
- Title(参考訳): 微分原文の表現マニフォールドの検査
- Authors: Stefan Arnold,
- Abstract要約: 様々なプライバシー予算にまたがるパラフレーズテキストの本質的な次元を推定する。
単語レベルの手法は表現多様体を著しく高める。
自己回帰生成は、表現空間をカスケードし拡大する不自然な単語選択からの歪みを伝播させることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Differential Privacy (DP) for text has recently taken the form of text paraphrasing using language models and temperature sampling to better balance privacy and utility. However, the geometric distortion of DP regarding the structure and complexity in the representation space remains unexplored. By estimating the intrinsic dimension of paraphrased text across varying privacy budgets, we find that word-level methods severely raise the representation manifold, while sentence-level methods produce paraphrases whose manifolds are topologically more consistent with human-written paraphrases. Among sentence-level methods, masked paraphrasing, compared to causal paraphrasing, demonstrates superior preservation of structural complexity, suggesting that autoregressive generation propagates distortions from unnatural word choices that cascade and inflate the representation space.
- Abstract(参考訳): テキストの差分プライバシー(DP)は、最近、プライバシーとユーティリティのバランスを改善するために、言語モデルと温度サンプリングを使用したテキストパラフレーズの形式を取りました。
しかし、表現空間の構造と複雑さに関するDPの幾何学的歪みは未解明のままである。
様々なプライバシー予算にまたがるパラフレーズテキストの本質的な次元を推定することにより、単語レベルの手法が表現多様体を著しく高めるのに対し、文レベルの手法は、多様体がトポロジ的に人間の記述したパラフレーズとより整合したパラフレーズを生成する。
文レベルの言い回しでは、因果的言い回しと比較して、自己回帰生成は、表現空間をカスケードし拡大する不自然な単語選択からの歪みを伝播させることで、構造的複雑さの保存が優れていることを示唆している。
関連論文リスト
- Latent Lexical Projection in Large Language Models: A Novel Approach to Implicit Representation Refinement [0.0]
ラテントレキシカル射影 (LLP) は、構造化された空間からラテント空間への変換を通じて、レキシカル表現を洗練するために導入された。
LLPは既存の言語モデルアーキテクチャに最適化されたプロジェクション機構を統合する。
評価は、パープレキシティの低下とBLEUスコアの上昇を示し、予測精度と流布率の改善を示唆している。
論文 参考訳(メタデータ) (2025-02-03T23:18:53Z) - Improved Paraphrase Generation via Controllable Latent Diffusion [60.479643304122504]
textitLatent textitDiffusion textitParaphraser(LDP)を提案する。
実験の結果,LDPはベースラインよりもパラフレーズ生成の質や多様性をよく再現できることがわかった。
論文 参考訳(メタデータ) (2024-04-13T09:24:32Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Cross-Lingual BERT Contextual Embedding Space Mapping with Isotropic and
Isometric Conditions [7.615096161060399]
並列コーパスを利用した文脈認識・辞書フリーマッピング手法について検討する。
本研究は, 正規化文脈埋め込み空間における等方性, 等方性, 等方性の間の密接な関係を解明するものである。
論文 参考訳(メタデータ) (2021-07-19T22:57:36Z) - Neural Text Generation with Part-of-Speech Guided Softmax [82.63394952538292]
テキスト生成を導くために,言語アノテーション,すなわち部分音声(POS)を用いることを提案する。
提案手法は,比較品質を維持しつつ,より多様なテキストを生成できることを示した。
論文 参考訳(メタデータ) (2021-05-08T08:53:16Z) - Unsupervised Sentence-embeddings by Manifold Approximation and
Projection [3.04585143845864]
本研究では, 文を固定次元多様体に投影することにより, 文埋め込みを教師なしで生成する手法を提案する。
我々は,EMAP(Embedddings by Manifold Approximation and Projection)と呼ばれるアプローチを,サイズと複雑さの異なる6つの公開テキスト分類データセット上で検証する。
論文 参考訳(メタデータ) (2021-02-07T13:27:58Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。