Fugu-MT 論文翻訳(概要): WASA: WAtermark-based Source Attribution for Large Language Model-Generated Data

論文の概要: WASA: WAtermark-based Source Attribution for Large Language Model-Generated Data

arxiv url: http://arxiv.org/abs/2310.00646v1
Date: Sun, 1 Oct 2023 12:02:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 02:48:57.897286
Title: WASA: WAtermark-based Source Attribution for Large Language Model-Generated Data
Title（参考訳）: WASA:大規模言語モデル生成データに対するWAtermarkベースのソース属性
Authors: Jingtan Wang, Xinyang Lu, Zitong Zhao, Zhongxiang Dai, Chuan-Sheng Foo, See-Kiong Ng, Bryan Kian Hsiang Low
Abstract要約: 大言語モデル(LLM)は、ソースに関する情報を含む埋め込み透かしを持つ合成テキストを生成する。本稿では,我々のアルゴリズム設計により鍵特性を満たすWAtermarking for Source Attribution (WASA)フレームワークを提案する。我々のフレームワークは、効果的な情報源の属性とデータの出所を達成します。
参考スコア（独自算出の注目度）: 60.759755177369364
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The impressive performances of large language models (LLMs) and their immense potential for commercialization have given rise to serious concerns over the intellectual property (IP) of their training data. In particular, the synthetic texts generated by LLMs may infringe the IP of the data being used to train the LLMs. To this end, it is imperative to be able to (a) identify the data provider who contributed to the generation of a synthetic text by an LLM (source attribution) and (b) verify whether the text data from a data provider has been used to train an LLM (data provenance). In this paper, we show that both problems can be solved by watermarking, i.e., by enabling an LLM to generate synthetic texts with embedded watermarks that contain information about their source(s). We identify the key properties of such watermarking frameworks (e.g., source attribution accuracy, robustness against adversaries), and propose a WAtermarking for Source Attribution (WASA) framework that satisfies these key properties due to our algorithmic designs. Our WASA framework enables an LLM to learn an accurate mapping from the texts of different data providers to their corresponding unique watermarks, which sets the foundation for effective source attribution (and hence data provenance). Extensive empirical evaluations show that our WASA framework achieves effective source attribution and data provenance.
Abstract（参考訳）: 大規模言語モデル(LLM)の印象的なパフォーマンスと商業化の可能性は、トレーニングデータの知的財産権(IP)に対する深刻な懸念を引き起こしている。特に、LLMによって生成された合成テキストは、LLMのトレーニングに使用されるデータのIPを侵害する可能性がある。この目的のためには、できることは必須である。 (a)llm(source attribution)によって合成テキストの生成に寄与したデータ提供者を特定し b) LLM(data provenance)のトレーニングにデータプロバイダからのテキストデータが使用されているかどうかを検証する。本稿では, llm を用いて, ソース情報を含む埋め込み透かしを含む合成テキストを生成できるようにすることにより, 透かしによって両問題を解決できることを示す。このようなウォーターマーキングフレームワーク(例えば、ソース属性の正確性、敵に対する堅牢性)の鍵となる特性を特定し、アルゴリズム設計によりこれらの重要な特性を満たすWAtermarking for Source Attribution(WASA)フレームワークを提案する。私たちのwasaフレームワークは、llmが異なるデータプロバイダのテキストから対応するユニークなウォーターマークへの正確なマッピングを学習することを可能にします。大規模な実証実験により,我々の WASA フレームワークが有効な情報源属性とデータ証明を実現することを示す。

関連論文リスト

RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis [78.32151470154422]
テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。 C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。 SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
論文参考訳（メタデータ） (2026-02-28T14:47:34Z)
Watermarking LLM-Generated Datasets in Downstream Tasks [26.31171813997747]
大規模言語モデル(LLM)は、感情分類、レビュー生成、質問応答など幅広い分野にまたがる、急速な進歩を経験した。効率性と汎用性のため、研究者や企業はモデルをトレーニングするためにLLM生成データをますます活用している。 LLMが生成したコンテンツを追跡できないことは大きな課題となり、LLM所有者の著作権侵害につながる可能性がある。本研究では,LLM生成データセットに透かしを注入する手法を提案する。
論文参考訳（メタデータ） (2025-06-16T13:51:49Z)
Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。生成したテキストの強力な検出器を開発することがますます重要になっている。この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文参考訳（メタデータ） (2024-11-09T18:27:15Z)
Understanding the Effects of Human-written Paraphrases in LLM-generated Text Detection [7.242609314791262]
Human & LLM Paraphrase Collection (HLPC)は、人間の文章とパラフレーズを組み込んだ第一種データセットである。我々は,人書きパラフレーズ,GPTとOPTのLLM生成文書,DIPPERとBARTのLLM生成パラフレーズを組み込んだ分類実験を行った。以上の結果から,人文パラフレーズの含浸がLLM検出性能に大きな影響を与え,TPR@1%FPRが促進され,AUROCのトレードオフや精度が向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-11-06T10:06:21Z)
A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。 IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文参考訳（メタデータ） (2024-10-29T04:14:23Z)
LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文参考訳（メタデータ） (2024-10-28T20:42:46Z)
Evaluation of Attribution Bias in Retrieval-Augmented Large Language Models [47.694137341509304]
大規模言語モデルにおける著者情報に対する属性感度とバイアスを評価する。文献に著者情報を追加することで, LLMの属性品質を3%から18%大きく変化させることができることを示す。その結果,資料のメタデータがLCMの信頼度や回答の属性に影響を及ぼす可能性が示唆された。
論文参考訳（メタデータ） (2024-10-16T08:55:49Z)
CopyLens: Dynamically Flagging Copyrighted Sub-Dataset Contributions to LLM Outputs [39.425944445393945]
CopyLensは,著作権付きデータセットが大規模言語モデルの応答に与える影響を分析するフレームワークである。実験の結果、CopyLensは提案したベースラインよりも効率と精度を15.2%向上し、エンジニアリング手法より58.7%、OOD検出ベースラインより0.21AUC向上した。
論文参考訳（メタデータ） (2024-10-06T11:41:39Z)
Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文参考訳（メタデータ） (2024-07-24T16:53:09Z)
SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文参考訳（メタデータ） (2024-05-30T21:51:01Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
Harnessing Explanations: LLM-to-LM Interpreter for Enhanced Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。提案手法は、確立されたTAGデータセットの最先端結果を実現する。本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文参考訳（メタデータ） (2023-05-31T03:18:03Z)
LLMDet: A Third Party Large Language Models Generated Text Detection Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文参考訳（メタデータ） (2023-05-24T10:45:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。