論文の概要: Universal Zero-shot Embedding Inversion
- arxiv url: http://arxiv.org/abs/2504.00147v1
- Date: Mon, 31 Mar 2025 18:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:08.626928
- Title: Universal Zero-shot Embedding Inversion
- Title(参考訳): ユニバーサルゼロショット埋め込みインバージョン
- Authors: Collin Zhang, John X. Morris, Vitaly Shmatikov,
- Abstract要約: 組み込みインバージョンは、NLPとセキュリティの両方において根本的な問題である。
ZSInvertは、最近提案された逆数復号法に基づくゼロショット逆変換法である。
- 参考スコア(独自算出の注目度): 9.35864154458957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding inversion, i.e., reconstructing text given its embedding and black-box access to the embedding encoder, is a fundamental problem in both NLP and security. From the NLP perspective, it helps determine how much semantic information about the input is retained in the embedding. From the security perspective, it measures how much information is leaked by vector databases and embedding-based retrieval systems. State-of-the-art methods for embedding inversion, such as vec2text, have high accuracy but require (a) training a separate model for each embedding, and (b) a large number of queries to the corresponding encoder. We design, implement, and evaluate ZSInvert, a zero-shot inversion method based on the recently proposed adversarial decoding technique. ZSInvert is fast, query-efficient, and can be used for any text embedding without training an embedding-specific inversion model. We measure the effectiveness of ZSInvert on several embeddings and demonstrate that it recovers key semantic information about the corresponding texts.
- Abstract(参考訳): 埋め込みインバージョン、すなわち埋め込みエンコーダへのブラックボックスアクセスが与えられたテキストの再構築は、NLPとセキュリティの両方において根本的な問題である。
NLPの観点からは、インプットに関するセマンティック情報が埋め込みにどれだけ保持されているかを決定するのに役立ちます。
セキュリティの観点からは、ベクターデータベースや埋め込みベースの検索システムによってリークされる情報の量を測定する。
vec2textのような組込みインバージョンのための最先端の手法は精度が高いが必要である
(a)埋め込みごとに個別のモデルを訓練し、
b) 対応するエンコーダに対する多数のクエリ。
本稿では,最近提案された逆復号法に基づくゼロショット逆変換手法であるZSInvertを設計,実装,評価する。
ZSInvertは高速でクエリ効率が高く、埋め込み固有の反転モデルをトレーニングすることなく、どんなテキスト埋め込みにも使用できる。
いくつかの埋め込みにおけるZSInvertの有効性を計測し、対応するテキストのキーセマンティック情報を復元できることを実証する。
関連論文リスト
- ALGEN: Few-shot Inversion Attacks on Textual Embeddings using Alignment and Generation [9.220337458064765]
ALGEN(alignment and generation)を用いたテキスト・エンベディング・インバージョン・アタックを提案する。
ALGEN攻撃はドメインや言語間で効果的に転送でき、重要な情報を明らかにする。
我々は,NLPに埋め込みアライメントを応用した新しいテキスト埋め込みインバージョンパラダイムを構築した。
論文 参考訳(メタデータ) (2025-02-16T23:11:13Z) - HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization [76.57699934689468]
ニューラルモデルの性能を高めるために,デコーダ側で詳細なTokenレベル検索強化機構(Tram)を提案する。
文脈的コードセマンティクスの取得におけるトークンレベルの検索の課題を克服するために,コードセマンティクスを個々の要約トークンに統合することを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:02:04Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Levenshtein OCR [20.48454415635795]
VLT(Vision-Language Transformer)に基づく新しいシーンテキスト認識器を提案する。
提案手法は,NLP領域のLevenshtein Transformerに触発されて,自然画像からテキストを自動的に書き起こす方法を提案する。
論文 参考訳(メタデータ) (2022-09-08T06:46:50Z) - Autoregressive Linguistic Steganography Based on BERT and Consistency
Coding [17.881686153284267]
言語ステガノグラフィ(LS)は、秘密情報をテキストに埋め込むことによって、コミュニケーションの存在を隠蔽する。
近年のアルゴリズムでは、言語モデル(LM)を用いてステガノグラフテキストを生成する。
本稿では,BERTと整合性符号化に基づく自己回帰型LSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-26T02:36:55Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z) - Sparse Concept Coded Tetrolet Transform for Unconstrained Odia Character
Recognition [0.0]
スパースの概念を符号化したテトロレットを用いて,制約なしの英数字に対する新しい画像表現手法を提案する。
提案するOCRシステムは,PCA,SparsePCA,Slantletなどのスパースベース技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-03T13:20:12Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。