論文の概要: AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2406.19271v1
- Date: Thu, 27 Jun 2024 15:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:38:31.423253
- Title: AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning
- Title(参考訳): AutoPureData: LLMファインチューニングのためのWebデータの自動フィルタリング
- Authors: Praneeth Vadlapati,
- Abstract要約: 本研究では,既存の信頼されたAIモデルの助けを借りて,Webデータを収集し,不要なテキストを自動的にフィルタリングするシステムを提案する。
実験では、Webデータの小さなサンプルを収集し、フィルタリングし、データを浄化するシステムの有効性を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Up-to-date and reliable Large Language Models (LLMs) are consistently sought after. Typically, LLMs are trained on a fixed dataset and then deployed. However, the training data continually becomes outdated. Enable automatic training of AI using web data involves significant concerns regarding data quality and safety due to bias, spam, and other unsafe or unwanted text. Pure data is essential for producing reliable models. Training a model on impure data may result in undesirable outcomes. This research proposes a system that collects web data and automatically filters out unwanted text with the assistance of existing trusted AI models. In the experiment, a small sample of web data was collected and filtered, demonstrating the system's effectiveness in purifying the data.
- Abstract(参考訳): 最新かつ信頼性の高いLarge Language Models (LLM) は一貫して追求されている。
通常、LLMは固定データセットでトレーニングされ、デプロイされる。
しかし、トレーニングデータは時代遅れになる。
Webデータを使用したAIの自動トレーニングを可能にするには、バイアスやスパム、その他の安全でないあるいは望ましくないテキストによるデータ品質と安全性に関する重大な懸念が伴う。
信頼できるモデルを作るには、純粋なデータが不可欠だ。
不純なデータに対するモデルのトレーニングは、望ましくない結果をもたらす可能性がある。
本研究では,既存の信頼されたAIモデルの助けを借りて,Webデータを収集し,不要なテキストを自動的にフィルタリングするシステムを提案する。
実験では、Webデータの小さなサンプルを収集し、フィルタリングし、データを浄化するシステムの有効性を実証した。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - When to Trust Your Data: Enhancing Dyna-Style Model-Based Reinforcement Learning With Data Filter [7.886307329450978]
ダイナスタイルのアルゴリズムは、推定環境モデルからのシミュレーションデータを用いてモデルフリートレーニングを加速することにより、2つのアプローチを組み合わせる。
これまでの作業では、モデルアンサンブルを使用したり、実際の環境から収集されたデータで推定されたモデルを事前訓練することで、この問題に対処している。
本研究では,実環境において収集したデータから大きく分岐する推定モデルからシミュレーションデータを除去するアウト・オブ・ディストリビューションデータフィルタを提案する。
論文 参考訳(メタデータ) (2024-10-16T01:49:03Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Releasing Malevolence from Benevolence: The Menace of Benign Data on Machine Unlearning [28.35038726318893]
大量の実データや合成データに基づいてトレーニングされた機械学習モデルは、様々な領域で優れた予測性能を達成する。
プライバシの懸念に対処するため、モデルから特定のデータサンプルを削除するために、機械学習が提案されている。
本研究では,データ配信情報を少量の良質なデータ集合に抽出するために,Unlearning Usability Attackを導入する。
論文 参考訳(メタデータ) (2024-07-06T15:42:28Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Machine Unlearning Method Based On Projection Residual [23.24026891609028]
本稿ではニュートン法に基づく投射残差法を採用する。
主な目的は、線形回帰モデルとニューラルネットワークモデルという文脈で機械学習タスクを実装することである。
実験により, この手法は, モデル再学習に近いデータ削除において, より徹底的な手法であることが確認された。
論文 参考訳(メタデータ) (2022-09-30T07:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。