論文の概要: WASA: WAtermark-based Source Attribution for Large Language
Model-Generated Data
- arxiv url: http://arxiv.org/abs/2310.00646v1
- Date: Sun, 1 Oct 2023 12:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:48:57.897286
- Title: WASA: WAtermark-based Source Attribution for Large Language
Model-Generated Data
- Title(参考訳): WASA:大規模言語モデル生成データに対するWAtermarkベースのソース属性
- Authors: Jingtan Wang, Xinyang Lu, Zitong Zhao, Zhongxiang Dai, Chuan-Sheng
Foo, See-Kiong Ng, Bryan Kian Hsiang Low
- Abstract要約: 大言語モデル(LLM)は、ソースに関する情報を含む埋め込み透かしを持つ合成テキストを生成する。
本稿では,我々のアルゴリズム設計により鍵特性を満たすWAtermarking for Source Attribution (WASA)フレームワークを提案する。
我々のフレームワークは、効果的な情報源の属性とデータの出所を達成します。
- 参考スコア(独自算出の注目度): 60.759755177369364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive performances of large language models (LLMs) and their immense
potential for commercialization have given rise to serious concerns over the
intellectual property (IP) of their training data. In particular, the synthetic
texts generated by LLMs may infringe the IP of the data being used to train the
LLMs. To this end, it is imperative to be able to (a) identify the data
provider who contributed to the generation of a synthetic text by an LLM
(source attribution) and (b) verify whether the text data from a data provider
has been used to train an LLM (data provenance). In this paper, we show that
both problems can be solved by watermarking, i.e., by enabling an LLM to
generate synthetic texts with embedded watermarks that contain information
about their source(s). We identify the key properties of such watermarking
frameworks (e.g., source attribution accuracy, robustness against adversaries),
and propose a WAtermarking for Source Attribution (WASA) framework that
satisfies these key properties due to our algorithmic designs. Our WASA
framework enables an LLM to learn an accurate mapping from the texts of
different data providers to their corresponding unique watermarks, which sets
the foundation for effective source attribution (and hence data provenance).
Extensive empirical evaluations show that our WASA framework achieves effective
source attribution and data provenance.
- Abstract(参考訳): 大規模言語モデル(LLM)の印象的なパフォーマンスと商業化の可能性は、トレーニングデータの知的財産権(IP)に対する深刻な懸念を引き起こしている。
特に、LLMによって生成された合成テキストは、LLMのトレーニングに使用されるデータのIPを侵害する可能性がある。
この目的のためには、できることは必須である。
(a)llm(source attribution)によって合成テキストの生成に寄与したデータ提供者を特定し
b) LLM(data provenance)のトレーニングにデータプロバイダからのテキストデータが使用されているかどうかを検証する。
本稿では, llm を用いて, ソース情報を含む埋め込み透かしを含む合成テキストを生成できるようにすることにより, 透かしによって両問題を解決できることを示す。
このようなウォーターマーキングフレームワーク(例えば、ソース属性の正確性、敵に対する堅牢性)の鍵となる特性を特定し、アルゴリズム設計によりこれらの重要な特性を満たすWAtermarking for Source Attribution(WASA)フレームワークを提案する。
私たちのwasaフレームワークは、llmが異なるデータプロバイダのテキストから対応するユニークなウォーターマークへの正確なマッピングを学習することを可能にします。
大規模な実証実験により,我々の WASA フレームワークが有効な情報源属性とデータ証明を実現することを示す。
関連論文リスト
- Differentially Private Synthetic Data via Foundation Model APIs 2: Text [57.64059482750924]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training [23.99093718956372]
本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
論文 参考訳(メタデータ) (2024-01-01T06:04:52Z) - REMARK-LLM: A Robust and Efficient Watermarking Framework for Generative
Large Language Models [17.74476474369235]
大規模言語モデル(LLM)のための新しい効率的で堅牢な透かしフレームワークREMARK-LLMを提案する。
ReMARK-LLMは、透かしのある内容における意味的整合性の保存を促進するために厳格に訓練されている。
透かしの検出と除去攻撃に対してより優れたレジリエンスを示す。
論文 参考訳(メタデータ) (2023-10-18T22:14:37Z) - Can Text-based Knowledge Graph Completion Benefit From Zero-Shot Large
Language Models? [10.56565195524981]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著に改善されている。
本研究では,より効率的なテキスト記述がモデル性能を増幅できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-10-12T12:31:23Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - DataTales: Investigating the use of Large Language Models for Authoring
Data-Driven Articles [19.341156634212364]
大規模言語モデル(LLM)は、データ駆動記事の作成を支援する機会を提供する。
我々は LLM を利用したプロトタイプシステム DataTales を設計した。
デザインプローブとしてDataTalesを用いて,11人の専門家による質的研究を行い,その概念を評価した。
論文 参考訳(メタデータ) (2023-08-08T06:21:58Z) - Towards Codable Watermarking for Injecting Multi-bit Information to LLM [90.13097900576113]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
LLMの悪用を防ぐために、テキストのソースを特定する必要性が高まっている。
テキスト透かし技術は、LLMによってテキストが生成されるかどうかを識別する上で信頼性があることが証明されている。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - LLMDet: A Third Party Large Language Models Generated Text Detection
Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。
既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。
本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:45:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。