Fugu-MT 論文翻訳(概要): SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore

論文の概要: SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore

arxiv url: http://arxiv.org/abs/2308.04430v2
Date: Wed, 31 Jul 2024 02:15:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 20:47:15.679105
Title: SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore
Title（参考訳）: SILO言語モデル:非パラメトリックデータストアにおける法的リスクの解消
Authors: Sewon Min, Suchin Gururangan, Eric Wallace, Weijia Shi, Hannaneh Hajishirzi, Noah A. Smith, Luke Zettlemoyer,
Abstract要約: 推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
参考スコア（独自算出の注目度）: 159.21914121143885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The legality of training language models (LMs) on copyrighted or otherwise restricted data is under intense debate. However, as we show, model performance significantly degrades if trained only on low-risk text (e.g., out-of-copyright books or government documents), due to its limited size and domain coverage. We present SILO, a new language model that manages this risk-performance tradeoff during inference. SILO is built by (1) training a parametric LM on Open License Corpus (OLC), a new corpus we curate with 228B tokens of public domain and permissively licensed text and (2) augmenting it with a more general and easily modifiable nonparametric datastore (e.g., containing copyrighted books or news) that is only queried during inference. The datastore allows use of high-risk data without training on it, supports sentence-level data attribution, and enables data producers to opt out from the model by removing content from the store. These capabilities can foster compliance with data-use regulations such as the fair use doctrine in the United States and the GDPR in the European Union. Our experiments show that the parametric LM struggles on domains not covered by OLC. However, access to the datastore greatly improves out of domain performance, closing 90% of the performance gap with an LM trained on the Pile, a more diverse corpus with mostly high-risk text. We also analyze which nonparametric approach works best, where the remaining errors lie, and how performance scales with datastore size. Our results suggest that it is possible to build high quality language models while mitigating their legal risk.
Abstract（参考訳）: 著作権や制限されたデータに対する訓練言語モデル(LM)の合法性は、激しい議論の対象となっている。しかし、そのサイズとドメインカバレッジが制限されているため、低リスクテキスト(例えば、コピーライト外書籍や政府文書)でのみトレーニングされた場合、モデルのパフォーマンスは大幅に低下する。推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。 SILOは、(1)公開ドメインの228Bトークンとパーミッシブライセンスのテキストをキュレートした新しいコーパスであるオープンライセンスコーパス(OLC)でパラメトリックLMをトレーニングし、(2)推論時にのみクエリされる、より汎用的で簡単に修正可能な非パラメトリックデータストア(例えば、著作権付き書籍やニュースを含む)で拡張することで構築される。データストアは、トレーニングなしでハイリスクデータを使用することができ、文レベルのデータ属性をサポートし、データプロデューサがストアからコンテンツを削除することで、モデルからオプトアウトできる。これらの能力は、米国の公正使用原則や欧州連合のGDPRなどのデータ利用規制の遵守を促進することができる。実験の結果,パラメトリックLMはOLCでカバーされていない領域で苦労していることがわかった。しかし、データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、Pileで訓練されたLMのパフォーマンスギャップの90%を埋める。また、どの非パラメトリックアプローチが最善か、残りのエラーがどこにあるか、そしてデータストアサイズでパフォーマンスがどのようにスケールするかを分析します。この結果から,法的なリスクを軽減しつつ,高品質な言語モデルを構築することが可能であることが示唆された。

関連論文リスト

Can Performant LLMs Be Ethical? Quantifying the Impact of Web Crawling Opt-Outs [42.58914814153536]
我々は、Webクローリングオプトアウトに準拠したデータセットでトレーニングされたモデルと、そうでないデータセットのパフォーマンス差を定量化する。 1.5Bモデルを用いた実験の結果,2025年1月現在,Webデータオプトアウトの遵守は一般知識獲得を損なうものではないことがわかった。しかし、医学研究などの専門分野では、大手出版社を除くと性能が低下する。
論文参考訳（メタデータ） (2025-04-08T17:08:06Z)
SUV: Scalable Large Language Model Copyright Compliance with Regularized Selective Unlearning [22.76025238218253]
SUVは、大規模言語モデルが著作権のあるコンテンツを記憶することを防ぐために設計された選択的なアンラーニングフレームワークである。私たちは、冗長な著作権のあるコンテンツを、プラウシブルで一貫性のある代替品に置き換えます。我々は,500冊の有名な書籍の大規模データセットを用いて,我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-03-29T02:33:26Z)
Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文参考訳（メタデータ） (2025-03-15T10:19:15Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Towards Operationalizing Right to Data Protection [8.61230665736263]
RegTextは、認識不能な相関関係を自然言語データセットに注入するフレームワークで、コンテンツに影響を与えることなく、効果的に学習不能にすることができる。小型・大規模LMの厳密な実証分析によりRegTextの有用性を実証する。 RegTextは、生成したデータからGPT-4oやLlamaといった新しいモデルを学ぶことができます。
論文参考訳（メタデータ） (2024-11-13T10:43:31Z)
TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-28T19:32:18Z)
Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文参考訳（メタデータ） (2024-10-21T21:45:22Z)
Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification [9.36179617282876]
GPT-4o を用いて ProofWriter データセットの高品質な FOL アノテーション付きサブセットを作成する。本稿では,LLaMA-2およびMistralモデル上でProofFOLを用いたProofWriterおよびProntoQAデータセットの最先端性能を示す。
論文参考訳（メタデータ） (2024-09-24T21:24:07Z)
Nob-MIAs: Non-biased Membership Inference Attacks Assessment on Large Language Models with Ex-Post Dataset Construction [37.69303106863453]
メンバーシップ推論攻撃 (MIA) は、特定の文書が与えられたLarge Language Models (LLM) プリトレーニングで使用されたかどうかを検出することを目的としている。本稿では,LLMにおけるMIAの評価について述べる。我々は、より公平なMIA評価のために、非バイアス'と非分類'のデータセットを作成するアルゴリズムを提案し、検証する。
論文参考訳（メタデータ） (2024-08-12T07:49:28Z)
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-07-09T08:27:27Z)
Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文参考訳（メタデータ） (2024-07-09T08:14:29Z)
Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文参考訳（メタデータ） (2024-04-23T15:49:37Z)
FedJudge: Federated Legal Large Language Model [10.70953602515144]
大規模言語モデル(LLMs)は、法律専門家や平民を支援するための潜在的な応用を提供する法的な知能の分野で有名になった。本稿では,LLMとFederated Learning(FL)の方法論の統合について検討する。本稿では,FedJudge(Federated Legal Large Language Model)フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-15T05:45:44Z)
Are You Copying My Model? Protecting the Copyright of Large Language Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。 Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文参考訳（メタデータ） (2023-05-17T08:28:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。