論文の概要: DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking
- arxiv url: http://arxiv.org/abs/2406.02836v2
- Date: Thu, 20 Jun 2024 15:25:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 01:36:36.278207
- Title: DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking
- Title(参考訳): DREW : エラー制御型透かしの活用によるロバストデータ保護に向けて
- Authors: Mehrdad Saberi, Vinu Sankar Sadasivan, Arman Zarei, Hessam Mahdavifar, Soheil Feizi,
- Abstract要約: 誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
- 参考スコア(独自算出の注目度): 58.37644304554906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying the origin of data is crucial for data provenance, with applications including data ownership protection, media forensics, and detecting AI-generated content. A standard approach involves embedding-based retrieval techniques that match query data with entries in a reference dataset. However, this method is not robust against benign and malicious edits. To address this, we propose Data Retrieval with Error-corrected codes and Watermarking (DREW). DREW randomly clusters the reference dataset, injects unique error-controlled watermark keys into each cluster, and uses these keys at query time to identify the appropriate cluster for a given sample. After locating the relevant cluster, embedding vector similarity retrieval is performed within the cluster to find the most accurate matches. The integration of error control codes (ECC) ensures reliable cluster assignments, enabling the method to perform retrieval on the entire dataset in case the ECC algorithm cannot detect the correct cluster with high confidence. This makes DREW maintain baseline performance, while also providing opportunities for performance improvements due to the increased likelihood of correctly matching queries to their origin when performing retrieval on a smaller subset of the dataset. Depending on the watermark technique used, DREW can provide substantial improvements in retrieval accuracy (up to 40\% for some datasets and modification types) across multiple datasets and state-of-the-art embedding models (e.g., DinoV2, CLIP), making our method a promising solution for secure and reliable source identification. The code is available at https://github.com/mehrdadsaberi/DREW
- Abstract(参考訳): データオーナシップ保護、メディアの法医学、AI生成コンテンツの検出など、データの起源の特定はデータの証明に不可欠である。
標準的なアプローチは、クエリデータと参照データセットのエントリをマッチングする埋め込みベースの検索技術である。
しかし、この方法は良心や悪意のある編集に対して堅牢ではない。
そこで我々は,誤り訂正符号とウォーターマーキング(DREW)を用いたデータ検索手法を提案する。
DREWは、参照データセットをランダムにクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入し、クエリ時にこれらのキーを使用して、所定のサンプルに対して適切なクラスタを特定する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
エラー制御符号(ECC)の統合により、信頼性の高いクラスタ割り当てが保証され、ECCアルゴリズムが正しいクラスタを高い信頼性で検出できない場合に、データセット全体の検索が可能になる。
これにより、DREWはベースラインのパフォーマンスを維持しつつ、データセットの小さなサブセットで検索を行う際に、クエリをその起源と正しく一致させる可能性が高くなるため、パフォーマンス改善の機会を提供する。
使用した透かし技術によって、DREWは複数のデータセットと最先端の埋め込みモデル(例えば、DinoV2、CLIP)にわたる検索精度(いくつかのデータセットや修正タイプで最大40%)を大幅に改善し、セキュアで信頼性の高いソース識別のための有望なソリューションとなる。
コードはhttps://github.com/mehrdadsaberi/DREWで公開されている。
関連論文リスト
- Hierarchical Sparse Representation Clustering for High-Dimensional Data Streams [16.228652652243888]
本稿では,高次元データストリームをクラスタリングするための階層的スパース表現クラスタリング法を提案する。
いくつかのベンチマークデータセットで得られた実験結果は、HSRCの有効性とロバスト性を示している。
論文 参考訳(メタデータ) (2024-09-07T03:40:55Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Graph-based Active Learning for Entity Cluster Repair [1.7453520331111723]
クラスタ修復手法は、クラスタ内のエラーを判定し、各クラスタが同一エンティティを表すレコードで構成されるように修正することを目的としている。
現在のクラスタ修復手法では、重複のないデータソースを前提としており、あるソースからのレコードは別のソースからのユニークなレコードに対応する。
近年,クラスタリング手法とリンク分類法を併用して,重複したデータソースに適用する手法が提案されている。
本稿では,クラスタ修復のための新しい手法を提案し,その基盤となる類似性グラフから得られるグラフメトリクスを利用する。
論文 参考訳(メタデータ) (2024-01-26T16:42:49Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with
Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。
本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-21T02:53:37Z) - Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文 参考訳(メタデータ) (2022-10-11T15:12:41Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Am I Rare? An Intelligent Summarization Approach for Identifying Hidden
Anomalies [0.0]
本稿では,INSIDENTと呼ばれる隠れ異常を識別するインテリジェント・サマリゼーション手法を提案する。
提案手法は,各クラスタの特徴を局所重み付けすることにより,特徴空間を特徴空間に動的にマッピングするクラスタリングに基づくアルゴリズムである。
また、クラスタサイズに基づく代表者の選択は、集計データ内の元のデータと同じ分布を保持する。
論文 参考訳(メタデータ) (2020-12-24T23:22:57Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。