論文の概要: SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore
- arxiv url: http://arxiv.org/abs/2308.04430v1
- Date: Tue, 8 Aug 2023 17:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 11:48:51.359873
- Title: SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore
- Title(参考訳): SILO言語モデル:非パラメトリックデータストアにおける法的リスクの解消
- Authors: Sewon Min, Suchin Gururangan, Eric Wallace, Hannaneh Hajishirzi, Noah
A. Smith, Luke Zettlemoyer
- Abstract要約: 推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
- 参考スコア(独自算出の注目度): 125.06066299987106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The legality of training language models (LMs) on copyrighted or otherwise
restricted data is under intense debate. However, as we show, model performance
significantly degrades if trained only on low-risk text (e.g., out-of-copyright
books or government documents), due to its limited size and domain coverage. We
present SILO, a new language model that manages this risk-performance tradeoff
during inference. SILO is built by (1) training a parametric LM on Open License
Corpus (OLC), a new corpus we curate with 228B tokens of public domain and
permissively licensed text and (2) augmenting it with a more general and easily
modifiable nonparametric datastore (e.g., containing copyrighted books or news)
that is only queried during inference. The datastore allows use of high-risk
data without training on it, supports sentence-level data attribution, and
enables data producers to opt out from the model by removing content from the
store. These capabilities can foster compliance with data-use regulations such
as the fair use doctrine in the United States and the GDPR in the European
Union. Our experiments show that the parametric LM struggles on domains not
covered by OLC. However, access to the datastore greatly improves out of domain
performance, closing 90% of the performance gap with an LM trained on the Pile,
a more diverse corpus with mostly high-risk text. We also analyze which
nonparametric approach works best, where the remaining errors lie, and how
performance scales with datastore size. Our results suggest that it is possible
to build high quality language models while mitigating their legal risk.
- Abstract(参考訳): 著作権や制限されたデータに対する訓練言語モデル(LM)の合法性は、激しい議論の対象となっている。
しかし, モデルの性能は, 低リスクテキスト(例えば, 著作権外書籍や政府文書)でのみ訓練した場合, サイズやドメインカバレッジが限定されているため, 著しく低下する。
これは推論中にリスクパフォーマンスのトレードオフを管理する新しい言語モデルです。
siloは、(1)パブリックドメインの228bトークンと許容ライセンスのテキストをキュレートした新しいコーパスであるopen license corpus(olc)上でパラメトリックlmをトレーニングし、(2)より一般的で容易に修正可能な非パラメトリックデータストア(例えば、著作権付き書籍やニュースを含む)で拡張することで構築されます。
データストアは、トレーニングなしでハイリスクデータを使用することができ、文レベルのデータ属性をサポートし、データプロデューサがストアからコンテンツを削除することで、モデルからオプトアウトできる。
これらの能力は、米国の公正使用原則や欧州連合のGDPRなどのデータ利用規制の遵守を促進することができる。
実験の結果,パラメトリックLMはOLCでカバーされていない領域で苦労していることがわかった。
しかし、データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、パフォーマンスギャップの90%を、主にリスクの高いテキストを含むより多様なコーパスであるパイル上でトレーニングされたlmで閉じる。
また、どの非パラメトリックアプローチが最適か、残りのエラーがどこにあるか、そしてデータストアサイズでパフォーマンスがどのようにスケールするかを分析します。
その結果, 法的リスクを軽減しつつ, 高品質な言語モデルの構築が可能であることが示唆された。
関連論文リスト
- Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That? [70.90792645587449]
命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。
LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。
本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - FedJudge: Federated Legal Large Language Model [11.347993811249006]
大規模言語モデル(LLMs)は、法律専門家や平民を支援するための潜在的な応用を提供する法的な知能の分野で有名になった。
本稿では,LLMとFederated Learning(FL)の方法論の統合について検討する。
本稿では,FedJudge(Federated Legal Large Language Model)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T05:45:44Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - ChatLaw: Open-Source Legal Large Language Model with Integrated External
Knowledge Bases [5.5888763670915855]
本稿ではChatLawという,オープンソースの法的大規模言語モデルを提案する。
法的なデータスクリーニングにおけるモデル幻覚の問題を克服するために,ベクトルデータベース検索とキーワード検索を組み合わせた手法を提案する。
また,参照データに存在する誤りを克服する大規模モデルの能力を高める自己認識手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T10:48:34Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Are You Copying My Model? Protecting the Copyright of Large Language
Models for EaaS via Backdoor Watermark [58.60940048748815]
企業は大規模な言語モデル(LLM)に基づいたEmbeddding as a Service(E)の提供を開始した。
Eはモデル抽出攻撃に弱いため、LLMの所有者に重大な損失をもたらす可能性がある。
埋め込みにバックドアを埋め込むEmbMarkerという埋め込み透かし手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T08:28:54Z) - Memorization for Good: Encryption with Autoregressive Language Models [8.645826579841692]
自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。
自己回帰的LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号)に無作為に復号できることを示す。
論文 参考訳(メタデータ) (2023-05-15T05:42:34Z) - CUE Vectors: Modular Training of Language Models Conditioned on Diverse
Contextual Signals [11.310756148007753]
本稿では,多種多様な文・外部文脈(メタデータを含む)を用いたニューラルネットワークモデルの学習をモジュール化する枠組みを提案する。
我々のアプローチである文脈的普遍埋め込み(CUE)は、日付や著者などの文脈の1つのセットでLMを訓練し、記事タイトルや前文のような新しいメタデータタイプに適応する。
我々は、複数のメタデータ型を持つNYTimesテキストコーパス上でCUEフレームワークを検証する。
論文 参考訳(メタデータ) (2022-03-16T17:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。