Fugu-MT 論文翻訳(概要): Rethinking the Privacy of Text Embeddings: A Reproducibility Study of "Text Embeddings Reveal (Almost) As Much As Text"

論文の概要: Rethinking the Privacy of Text Embeddings: A Reproducibility Study of "Text Embeddings Reveal (Almost) As Much As Text"

arxiv url: http://arxiv.org/abs/2507.07700v1
Date: Thu, 10 Jul 2025 12:27:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.393233
Title: Rethinking the Privacy of Text Embeddings: A Reproducibility Study of "Text Embeddings Reveal (Almost) As Much As Text"
Title（参考訳）: テキスト埋め込みのプライバシを再考する:「テキスト埋め込みは(ほぼ)テキストに匹敵する」の再現性の検討
Authors: Dominykas Seputis, Yongkang Li, Karsten Langerak, Serghei Mihailov,
Abstract要約: 我々はVec2Textフレームワークを再現し、2つの観点から評価する。ドメイン内設定とドメイン外設定の両方で、元のキー結果の再現に成功したのです。入力シーケンス長に対する感度を含むキー制限を識別する。
参考スコア（独自算出の注目度）: 0.14061979259370275
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text embeddings are fundamental to many natural language processing (NLP) tasks, extensively applied in domains such as recommendation systems and information retrieval (IR). Traditionally, transmitting embeddings instead of raw text has been seen as privacy-preserving. However, recent methods such as Vec2Text challenge this assumption by demonstrating that controlled decoding can successfully reconstruct original texts from black-box embeddings. The unexpectedly strong results reported by Vec2Text motivated us to conduct further verification, particularly considering the typically non-intuitive and opaque structure of high-dimensional embedding spaces. In this work, we reproduce the Vec2Text framework and evaluate it from two perspectives: (1) validating the original claims, and (2) extending the study through targeted experiments. First, we successfully replicate the original key results in both in-domain and out-of-domain settings, with only minor discrepancies arising due to missing artifacts, such as model checkpoints and dataset splits. Furthermore, we extend the study by conducting a parameter sensitivity analysis, evaluating the feasibility of reconstructing sensitive inputs (e.g., passwords), and exploring embedding quantization as a lightweight privacy defense. Our results show that Vec2Text is effective under ideal conditions, capable of reconstructing even password-like sequences that lack clear semantics. However, we identify key limitations, including its sensitivity to input sequence length. We also find that Gaussian noise and quantization techniques can mitigate the privacy risks posed by Vec2Text, with quantization offering a simpler and more widely applicable solution. Our findings emphasize the need for caution in using text embeddings and highlight the importance of further research into robust defense mechanisms for NLP systems.
Abstract（参考訳）: テキスト埋め込みは多くの自然言語処理(NLP)タスクの基本であり、レコメンデーションシステムや情報検索(IR)といった分野に広く適用されている。伝統的に、生のテキストの代わりに埋め込みを送信することはプライバシー保護と見なされてきた。しかし、Vec2Textのような最近の手法は、制御された復号化によってブラックボックスの埋め込みから元のテキストを再構築できることを実証することによって、この仮定に挑戦している。 Vec2Textによって報告された予想外の強い結果は、特に高次元埋め込み空間の通常非直観的かつ不透明な構造を考えると、さらなる検証を行う動機となった。本研究では,Vec2Textフレームワークを再現し,(1)原主張の検証,(2)対象実験による研究の拡充という2つの観点から評価する。まず、ドメイン内設定とドメイン外設定の両方で元のキー結果の再現に成功した。さらに、パラメータ感度分析を行い、センシティブな入力(例えばパスワード)を再構築する可能性を評価し、軽量なプライバシ保護として埋め込み量子化を探求することによって研究を拡張した。以上の結果から,Vec2Textは理想的な条件下で有効であり,明確なセマンティクスを欠いたパスワードのようなシーケンスを再構築できることがわかった。しかし、入力シーケンス長に対する感度を含む重要な制限を識別する。また、ガウスノイズと量子化技術は、Vec2Textがもたらすプライバシーリスクを軽減することができ、量子化はよりシンプルでより広く適用可能なソリューションを提供する。本研究は,NLPシステムにおけるロバスト防衛機構のさらなる研究の重要性を強調した。

関連論文リスト

Zero-Shot Privacy-Aware Text Rewriting via Iterative Tree Search [60.197239728279534]
クラウドベースのサービスにおける大規模言語モデル(LLM)は、重大なプライバシー上の懸念を引き起こしている。既存のテキスト匿名化と、ルールベースのリアクションやスクラブのような非識別技術は、プライバシー保護とテキストの自然性と実用性のバランスをとるのに苦労することが多い。我々は,一貫性,妥当性,自然性を保ちながら,秘密情報を体系的に難読化・削除するゼロショット木探索型反復文書き換えアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-09-25T07:23:52Z)
TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。 GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文参考訳（メタデータ） (2024-12-19T13:10:03Z)
Leveraging Structure Knowledge and Deep Models for the Detection of Abnormal Handwritten Text [19.05500901000957]
構造知識と手書きテキストの深層モデルを組み合わせた2段階検出アルゴリズムを提案する。新たな半教師付きコントラストトレーニング戦略によって訓練された形状回帰ネットワークを導入し、文字間の位置関係を十分に活用する。 2つの手書きテキストデータセットを用いた実験により,提案手法は検出性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2024-10-15T14:57:10Z)
Understanding and Mitigating the Threat of Vec2Text to Dense Retrieval Systems [28.175920880194223]
本稿では,Vec2Textによるテキスト復元に影響を及ぼすであろう埋め込みモデルに関連する要因について検討する。本稿では,回復可能性リスクを軽減しつつ,均等なランク付けを保証できる簡易な埋め込み変換修正法を提案する。
論文参考訳（メタデータ） (2024-02-20T07:49:30Z)
SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [121.44909266398194]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。 SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-01-15T12:33:00Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文参考訳（メタデータ） (2022-03-19T01:14:42Z)
Evaluating the Construct Validity of Text Embeddings with Application to Survey Questions [5.343406649012618]
テキスト埋め込みの有効性を評価するために,古典的な構成妥当性フレームワークを提案する。このフレームワークがテキスト埋め込みの不透明で高次元的な性質にどのように適応できるかを示す。埋め込みは, 全く新しい質問に対する回答を予測するのに有効であることを示す。
論文参考訳（メタデータ） (2022-02-18T12:35:46Z)
CORE-Text: Improving Scene Text Detection with Contrastive Relational Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文参考訳（メタデータ） (2021-12-14T16:22:25Z)
On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文参考訳（メタデータ） (2021-10-12T02:36:48Z)
ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。 1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文参考訳（メタデータ） (2021-05-08T07:46:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。