論文の概要: Text Embeddings Reveal (Almost) As Much As Text
- arxiv url: http://arxiv.org/abs/2310.06816v1
- Date: Tue, 10 Oct 2023 17:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 14:26:39.163484
- Title: Text Embeddings Reveal (Almost) As Much As Text
- Title(参考訳): テキスト埋め込みはテキストと同じくらい(ほとんど)明らかに
- Authors: John X. Morris, Volodymyr Kuleshov, Vitaly Shmatikov, Alexander M.
Rush
- Abstract要約: テキストの埋め込みに代表される全文を再構築し,テキストの埋め込みに関する問題点を考察する。
埋め込みに条件付けされたna"iveモデルでは性能が良くないが、反復的にテキストを修正・再埋め込みするマルチステップメソッドでは、正確に32text-token$のテキスト入力を92%の費用で回収できることがわかった。
- 参考スコア(独自算出の注目度): 86.5822042193058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How much private information do text embeddings reveal about the original
text? We investigate the problem of embedding \textit{inversion},
reconstructing the full text represented in dense text embeddings. We frame the
problem as controlled generation: generating text that, when reembedded, is
close to a fixed point in latent space. We find that although a na\"ive model
conditioned on the embedding performs poorly, a multi-step method that
iteratively corrects and re-embeds text is able to recover $92\%$ of
$32\text{-token}$ text inputs exactly. We train our model to decode text
embeddings from two state-of-the-art embedding models, and also show that our
model can recover important personal information (full names) from a dataset of
clinical notes. Our code is available on Github:
\href{https://github.com/jxmorris12/vec2text}{github.com/jxmorris12/vec2text}.
- Abstract(参考訳): テキスト埋め込みは、原文についてどの程度の個人情報を明かしているのか?
本稿では, テキスト埋め込みに代表される全文を再構築し, テキスト埋め込みの問題点を考察する。
我々はこの問題を制御された生成として表現する: 再埋め込み時に潜在空間内の不動点に近いテキストを生成する。
埋め込みに条件付けされたna\\iveモデルは性能が良くないが、反復的にテキストを修正・再埋め込みするマルチステップメソッドは、正確には$32\text{-token}$テキスト入力を9,2\%で回収できる。
2つの最先端の埋め込みモデルからテキスト埋め込みをデコードするようにトレーニングし、また、このモデルが臨床ノートのデータセットから重要な個人情報(フルネーム)を復元できることを示します。
我々のコードはgithubで入手できる。 \href{https://github.com/jxmorris12/vec2text}{github.com/jxmorris12/vec2text}。
関連論文リスト
- AnyText2: Visual Text Generation and Editing With Customizable Attributes [10.24874245687826]
本稿では,自然シーン画像の生成と編集において,多言語テキスト属性を正確に制御する新しい手法であるAnyText2を紹介する。
従来のAnyTextと比較して、私たちの新しいアプローチはイメージリアリズムを強化するだけでなく、推論速度の19.8%も向上します。
AnyTextの拡張として、この方法では、各行の属性をカスタマイズすることができ、それぞれ中国語と英語のテキスト精度が3.3%と9.3%向上した。
論文 参考訳(メタデータ) (2024-11-22T03:31:56Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - TOPFORMER: Topology-Aware Authorship Attribution of Deepfake Texts with Diverse Writing Styles [14.205559299967423]
近年のLarge Language Models (LLM) の進歩により、人間の文章と区別しにくい、オープンエンドの高品質なテキストの生成が可能になった。
悪意のある意図を持つユーザは、これらのオープンソース LLM を使用して、有害なテキストや、大規模な偽情報を生成することができる。
この問題を軽減するために、与えられたテキストがディープフェイクテキストであるか否かを判定する計算方法を提案する。
そこで我々はTopFormerを提案し、より言語的なパターンをディープフェイクテキストに取り込み、既存のAAソリューションを改善する。
論文 参考訳(メタデータ) (2023-09-22T15:32:49Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Med-EASi: Finely Annotated Dataset and Models for Controllable
Simplification of Medical Texts [32.57058284812338]
医療用テキストの簡易化は、提供者にとって患者に優しいコミュニケーションを支援し、医療用テキストをより使いやすくする。
我々は$textbfMed-EASi$$$underlinetextbfMed$ical dataset for $underlinetextbfE$laborative and $underlinetextbfA$bstractive $underlinetextbfSi$mplificationを提示する。
以上の結果から, 未注釈のベースラインに比べて, 微粒なアノテーションが学習を改善することが示唆された。
論文 参考訳(メタデータ) (2023-02-17T21:50:13Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - All you need is a second look: Towards Tighter Arbitrary shape text
detection [80.85188469964346]
長い曲線のテキストインスタンスは、CNNの受信フィールドサイズが制限されているため、断片化されがちである。
矩形や四角形のバウンディングボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
textitNASKは、予測された幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
論文 参考訳(メタデータ) (2020-04-26T17:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。