論文の概要: Inner-Probe: Discovering Copyright-related Data Generation in LLM Architecture
- arxiv url: http://arxiv.org/abs/2410.04454v2
- Date: Thu, 23 Jan 2025 09:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:21.121644
- Title: Inner-Probe: Discovering Copyright-related Data Generation in LLM Architecture
- Title(参考訳): 内部プローブ:LLMアーキテクチャにおける著作権関連データ生成の発見
- Authors: Qichao Ma, Rui-Jie Zhu, Peiye Liu, Renye Yan, Fahong Zhang, Ling Liang, Meng Li, Zhaofei Yu, Zongwei Wang, Yimao Cai, Tiejun Huang,
- Abstract要約: innerProbeは、著作権付きサブデータセットが生成されたテキストに与える影響を評価するために設計されたフレームワークである。
MHAに基づいてトレーニングされた軽量LSTMベースのネットワークを、教師付き方式で使用する。
Books3のサブデータセットコントリビューション分析のセマンティックモデルトレーニングに比べて効率が3倍向上し、Pileのベースラインよりも15.04%-58.7%高い精度を実現し、非コピーライトデータフィルタリングのAUCは0.104増加している。
- 参考スコア(独自算出の注目度): 39.425944445393945
- License:
- Abstract: Large Language Models (LLMs) utilize extensive knowledge databases and show powerful text generation ability. However, their reliance on high-quality copyrighted datasets raises concerns about copyright infringements in generated texts. Current research often employs prompt engineering or semantic classifiers to identify copyrighted content, but these approaches have two significant limitations: (1) Challenging to identify which specific sub-dataset (e.g., works from particular authors) influences an LLM's output. (2) Treating the entire training database as copyrighted, hence overlooking the inclusion of non-copyrighted training data. We propose InnerProbe, a lightweight framework designed to evaluate the influence of copyrighted sub-datasets on LLM-generated texts. Unlike traditional methods relying solely on text, we discover that the results of multi-head attention (MHA) during LLM output generation provide more effective information. Thus, InnerProbe performs sub-dataset contribution analysis using a lightweight LSTM-based network trained on MHA results in a supervised manner. Harnessing such a prior, InnerProbe enables non-copyrighted text detection through a concatenated global projector trained with unsupervised contrastive learning. InnerProbe demonstrates 3x improved efficiency compared to semantic model training in sub-dataset contribution analysis on Books3, achieves 15.04%-58.7% higher accuracy over baselines on the Pile, and delivers a 0.104 increase in AUC for non-copyrighted data filtering.
- Abstract(参考訳): 大規模言語モデル(LLM)は広範な知識データベースを利用し、強力なテキスト生成能力を示す。
しかし、高品質な著作権付きデータセットへの依存は、生成されたテキストにおける著作権侵害に関する懸念を引き起こす。
現在の研究では、著作権のあるコンテンツを識別するために、プロンプトエンジニアリングまたはセマンティック分類器を用いることが多いが、これらのアプローチには2つの重要な制限がある:(1)特定のサブデータセット(例えば、特定の著者の作業)がLLMの出力に影響を与えるかを特定すること。
2) トレーニングデータベース全体を著作権として扱い, 非著作権のトレーニングデータを含めることを見越す。
著作権付きサブデータセットがLLM生成テキストに与える影響を評価するための軽量フレームワークであるInnerProbeを提案する。
テキストのみに依存した従来の手法とは異なり、LLM出力生成時のマルチヘッドアテンション(MHA)の結果がより効果的な情報を提供することがわかった。
そこで、InnerProbeは、MLAに基づいてトレーニングされた軽量LSTMネットワークを用いて、教師付き方法でサブデータセットコントリビューション分析を行う。
従来は、教師なしのコントラスト学習で訓練された連結グローバルプロジェクタを通じて、非コピーライトテキストの検出が可能であった。
InnerProbeは、Books3のサブデータセットコントリビューション分析におけるセマンティックモデルトレーニングに比べて3倍の効率向上を示し、Pileのベースラインよりも15.04%-58.7%高い精度を実現し、非コピーライトデータフィルタリングのAUCは0.104増加している。
関連論文リスト
- Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。
生成したテキストの強力な検出器を開発することがますます重要になっている。
この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文 参考訳(メタデータ) (2024-11-09T18:27:15Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。
提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。
本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文 参考訳(メタデータ) (2024-05-28T09:12:44Z) - Data Augmentation for Text-based Person Retrieval Using Large Language Models [16.120524750964016]
テキストベースのPerson Retrieval (TPR)は、テキストクエリが与えられた記述と一致する人物画像の検索を目的としている。
高価なアノテーションとプライバシー保護のため、大規模で高品質なTPRデータセットを構築するのは難しい。
本稿では,TPRのためのLLM-DA法を提案する。
論文 参考訳(メタデータ) (2024-05-20T11:57:50Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Digger: Detecting Copyright Content Mis-usage in Large Language Model
Training [23.99093718956372]
本稿では,Large Language Models (LLMs) のトレーニングデータセット内で著作権のある書籍のコンテンツの存在を検知し,評価するためのフレームワークを提案する。
このフレームワークはまた、各コンテンツサンプルのインクルージョンの可能性の信頼度推定も提供する。
論文 参考訳(メタデータ) (2024-01-01T06:04:52Z) - Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。
我々はこの問題を透かしによって取り組めることを示した。
本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。