Fugu-MT 論文翻訳(概要): Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law

論文の概要: Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law

arxiv url: http://arxiv.org/abs/2407.13493v3
Date: Mon, 7 Oct 2024 16:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 20:14:30.249370
Title: Training Foundation Models as Data Compression: On Information, Model Weights and Copyright Law
Title（参考訳）: データ圧縮としての基礎モデル--情報・モデル重み・著作権法を中心に
Authors: Giorgio Franceschelli, Claudia Cevenini, Mirco Musolesi,
Abstract要約: 本稿では,モデルの重みがトレーニングデータの圧縮表現を具現化する,トレーニング・アズ・圧縮の視点を紹介する。本稿では,基礎モデルによるアウトプットの著作権侵害から生じる技術的・法的課題について考察する。
参考スコア（独自算出の注目度）: 2.1848279334180676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The training process of foundation models as for other classes of deep learning systems is based on minimizing the reconstruction error over a training set. For this reason, they are susceptible to the memorization and subsequent reproduction of training samples. In this paper, we introduce a training-as-compressing perspective, wherein the model's weights embody a compressed representation of the training data. From a copyright standpoint, this point of view implies that the weights could be considered a reproduction or a derivative work of a potentially protected set of works. We investigate the technical and legal challenges that emerge from this framing of the copyright of outputs generated by foundation models, including their implications for practitioners and researchers. We demonstrate that adopting an information-centric approach to the problem presents a promising pathway for tackling these emerging complex legal issues.
Abstract（参考訳）: ディープラーニングシステムの他のクラスに対する基礎モデルのトレーニングプロセスは、トレーニングセット上の再構成誤差を最小限に抑えることに基づいている。そのため、記憶とその後のトレーニングサンプルの再生に影響を受けやすい。本稿では,モデルの重みがトレーニングデータの圧縮表現を具現化する,トレーニング・アズ・圧縮の視点を紹介する。著作権の観点から見れば、この視点は、重みが潜在的に保護された作品の複製または派生作品と見なせることを意味している。本稿では,基礎モデルが生み出すアウトプットの著作権の枠組みから生じる技術的・法的課題について考察する。この問題に情報中心のアプローチを採用することは、これらの新たな複雑な法的問題に取り組む上で有望な道筋を示す。

関連論文リスト

On Reconstructing Training Data From Bayesian Posteriors and Trained Models [4.061135251278187]
トレーニングされたパラメータでモデルの仕様を公開することにより、相手はトレーニングデータに関する情報を再構築することが可能になる。本稿では,問題を表現するための数学的枠組みを確立すること,最大平均差分同値によって脆弱なトレーニングデータの特徴を特徴づけること,ベイジアンモデルと非ベイジアンモデルの両方でデータを再構成するためのスコアマッチングフレームワークを概説すること,の3つの主要な貢献を行う。
論文参考訳（メタデータ） (2025-07-24T12:49:41Z)
Low Resource Reconstruction Attacks Through Benign Prompts [12.077836270816622]
我々は、低リソースを必要とする新たな攻撃を考案し、実際のトレーニングセットへのアクセスをほとんど、あるいは全く想定しない。これは、画像がインフォームされたユーザによって、意図せずに再構築されるリスクを強調します。
論文参考訳（メタデータ） (2025-07-10T17:32:26Z)
Learning to Weight Parameters for Data Attribution [63.753710512888965]
生成モデルにおけるデータ帰属について検討し、どのトレーニング例が与えられた出力に最も影響するかを特定することを目的とした。本稿では,ラベル付きデータを必要とせず,属性に適したパラメータ重み付けを学習することで,これをモデル化する手法を提案する。
論文参考訳（メタデータ） (2025-06-06T00:32:04Z)
Reconstructing Training Data From Real World Models Trained with Transfer Learning [29.028185455223785]
本稿では,高解像度画像上で訓練されたモデルに対して,現実的な設定でデータ再構成を可能にする新しい手法を提案する。本手法は実世界のシナリオに対してarXiv:2206.07758の再構成方式を適用する。そこで本研究では,数千の候補からの良好な復元を識別するためのクラスタリングに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-22T17:59:10Z)
Evaluating Copyright Takedown Methods for Language Models [100.38129820325497]
言語モデル(LM)は、潜在的に著作権のある資料を含む様々なデータに対する広範な訓練からその能力を引き出す。本稿では,LMの著作権削除の可能性と副作用を初めて評価する。システムプロンプトの追加、デコード時間フィルタリングの介入、未学習アプローチなど、いくつかの戦略を検討する。
論文参考訳（メタデータ） (2024-06-26T18:09:46Z)
A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。 CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文参考訳（メタデータ） (2024-01-04T11:14:01Z)
Reusing Pretrained Models by Multi-linear Operators for Efficient Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。 bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文参考訳（メタデータ） (2023-10-16T06:16:47Z)
Tools for Verifying Neural Models' Training Data [29.322899317216407]
The Proof-of-Training-Data”では、モデルトレーナーがモデルの重みを発生させたトレーニングデータの検証を納得させることができる。検証手順が多種多様な攻撃をキャッチできることを実験的に示す。
論文参考訳（メタデータ） (2023-07-02T23:27:00Z)
Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文参考訳（メタデータ） (2023-06-15T17:42:48Z)
AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文参考訳（メタデータ） (2023-04-07T08:50:18Z)
FairIF: Boosting Fairness in Deep Learning via Influence Functions with Validation Set Sensitive Attributes [51.02407217197623]
本稿では,FAIRIFという2段階の学習アルゴリズムを提案する。サンプル重みが計算される再重み付きデータセットの損失を最小限に抑える。 FAIRIFは、様々な種類のバイアスに対して、フェアネスとユーティリティのトレードオフを良くしたモデルが得られることを示す。
論文参考訳（メタデータ） (2022-01-15T05:14:48Z)
Reconstructing Training Data with Informed Adversaries [30.138217209991826]
機械学習モデルへのアクセスを考えると、敵はモデルのトレーニングデータを再構築できるだろうか? 本研究は、この疑問を、学習データポイントの全てを知っている強力な情報提供者のレンズから研究する。この厳密な脅威モデルにおいて、残りのデータポイントを再構築することは可能であることを示す。
論文参考訳（メタデータ） (2022-01-13T09:19:25Z)
Reconstructing Training Data from Diverse ML Models by Ensemble Inversion [8.414622657659168]
モデルインバージョン(MI)は、学習された機械学習(ML)モデルへのアクセスを敵が悪用するものであり、研究の注目を集めている。本研究では,訓練されたモデルのアンサンブルに制約されたジェネレータを訓練することにより,元のトレーニングデータの分布を推定するアンサンブル変換手法を提案する。データセットを使わずに高品質な結果が得られ、想定されるトレーニングデータに類似した補助データセットを利用することで、結果がどう改善されるかを示す。
論文参考訳（メタデータ） (2021-11-05T18:59:01Z)
Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。生徒は、合成された入力データを通じて教師の出力を訓練する。その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文参考訳（メタデータ） (2021-02-01T14:38:54Z)
Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文参考訳（メタデータ） (2020-07-09T09:06:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。