論文の概要: Protecting De-identified Documents from Search-based Linkage Attacks
- arxiv url: http://arxiv.org/abs/2510.06383v1
- Date: Tue, 07 Oct 2025 19:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.15784
- Title: Protecting De-identified Documents from Search-based Linkage Attacks
- Title(参考訳): 検索に基づくリンク攻撃からの未確認文書の保護
- Authors: Pierre Lison, Mark Anderson,
- Abstract要約: 本稿では,テキストの意味的整合性を保ちながら,検索に基づくリンク攻撃に対抗する手法を提案する。
判例の収集実験の結果,本手法は,オリジナルコンテンツに忠実なまま,検索に基づくリンクを効果的に防止できることを示した。
- 参考スコア(独自算出の注目度): 4.065664902103571
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While de-identification models can help conceal the identity of the individual(s) mentioned in a document, they fail to address linkage risks, defined as the potential to map the de-identified text back to its source. One straightforward way to perform such linkages is to extract phrases from the de-identified document and then check their presence in the original dataset. This paper presents a method to counter search-based linkage attacks while preserving the semantic integrity of the text. The method proceeds in two steps. We first construct an inverted index of the N-grams occurring in the document collection, making it possible to efficiently determine which N-grams appear in less than $k$ documents (either alone or in combination with other N-grams). An LLM-based rewriter is then iteratively queried to reformulate those spans until linkage is no longer possible. Experimental results on a collection of court cases show that the method is able to effectively prevent search-based linkages while remaining faithful to the original content.
- Abstract(参考訳): 復号化モデルは、文書に記載されている個人(s)の同一性を隠蔽するのに役立ちますが、特定されていないテキストをそのソースにマップする可能性として定義されたリンクリスクに対処することができないのです。
このようなリンケージを実行する簡単な方法の1つは、特定されていないドキュメントからフレーズを抽出し、元のデータセットでそれらの存在をチェックすることである。
本稿では,テキストの意味的整合性を保ちながら,検索に基づくリンク攻撃に対抗する手法を提案する。
方法は2つのステップで進む。
まず、文書コレクションに存在するN-gramの逆インデックスを構築し、どのN-gramが$k未満の文書(単独または他のN-gramと組み合わせて)に現れるかを効率的に決定する。
LLMベースのリライターは、リンケージが不可能になるまで、繰り返しクエリしてそれらのスパンを再構成する。
判例の収集実験の結果,本手法は,オリジナルコンテンツに忠実なまま,検索に基づくリンクを効果的に防止できることを示した。
関連論文リスト
- Purely Semantic Indexing for LLM-based Generative Recommendation and Retrieval [28.366331215978445]
非意味トークンを付加することなく、ユニークな意味保存IDを生成するために、純粋に意味インデックスを提案する。
我々は、厳密な最寄りのセントロイド選択を緩和し、2つのモデル非依存アルゴリズムを導入することにより、ユニークなID割り当てを可能にする。
論文 参考訳(メタデータ) (2025-09-19T21:59:55Z) - Adversarial Decoding: Generating Readable Documents for Adversarial Objectives [9.200635465485067]
新しい汎用テキスト生成技術は、異なる対向目的に対して読みやすい文書を生成する。
従来の方法は容易に検出可能なジベリッシュを生成するか、あるいは埋め込み類似性を含む目的を扱うことができない。
我々は, RAG中毒, 脱獄, 防御フィルターの回避など, 異なる目的に対して, 敵復号の有効性を計測した。
論文 参考訳(メタデータ) (2024-10-03T03:06:42Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Document Network Projection in Pretrained Word Embedding Space [7.455546102930911]
本稿では,リンクされた文書の集合を事前学習した単語埋め込み空間に投影する新しい手法である正規化線形埋め込み(RLE)を提案する。
我々は相補的な情報を提供するペアワイズ類似性の行列を利用する(例えば、引用グラフ内の2つの文書のネットワーク近接)。
ドキュメント表現は、レコメンデーション、分類、クラスタリングなど、多くの情報検索タスクを解決するのに役立つ。
論文 参考訳(メタデータ) (2020-01-16T10:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。