論文の概要: AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge
- arxiv url: http://arxiv.org/abs/2406.19271v2
- Date: Thu, 27 Feb 2025 07:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:08.366364
- Title: AutoPureData: Automated Filtering of Undesirable Web Data to Update LLM Knowledge
- Title(参考訳): AutoPureData: LLMの知識を更新するために望ましくないWebデータの自動フィルタリング
- Authors: Praneeth Vadlapati,
- Abstract要約: 最新かつ信頼性の高い言語モデルは、一貫して追求され、様々なアプリケーションに欠かせない。
本稿では,Webデータを自動的に収集・浄化するシステムであるAutoPureDataを提案する。
その結果、安全でないテキストを97%の精度で、望ましくないテキストを86%の精度で除去することができた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Up-to-date and reliable language models are consistently sought after and are essential in various applications. Typically, models are trained on a fixed dataset and then deployed globally. However, the knowledge of the models becomes outdated. Enabling automatic updation of AI knowledge using web data involves significant concerns regarding the model's safety and quality due to a threat from unsafe and undesirable text across the web. The purity of new data was essential for updating knowledge of language models to maintain their reliability. This paper proposes AutoPureData, a system that automatically collects and purifies web data. The system loaded a sample of web data. Utilizing existing trusted AI models, it successfully eliminated unsafe text with an accuracy of 97% and undesirable text with an accuracy of 86%, demonstrating the system's effectiveness in purifying the data. The system ensures that only meaningful and safe text can be used to update LLM knowledge. The pure text was then optimized and stored in a vector database for future querying. It was found that LLM can fetch new data from the vector DB. The LLM writes the RAG query in English, even if the user's query is in another language, proving that the system can perform cross-lingual retrieval. This paper proposes a method to maintain the accuracy and relevance of up-to-date language models by ensuring that only purified data was used to update LLM knowledge. This work contributes to updating knowledge of chatbots using meaningful and safe text, enhancing their utility across various industries, and potentially reducing the risks associated with outputs caused by unsafe or impure data. Code is available at github.com/Pro-GenAI/AutoPureData.
- Abstract(参考訳): 最新かつ信頼性の高い言語モデルは、一貫して追求され、様々なアプリケーションに欠かせない。
通常、モデルは固定データセットでトレーニングされ、グローバルにデプロイされる。
しかし、モデルの知識は時代遅れになる。
Webデータを使用したAI知識の自動更新を実現するには、Web全体の安全で望ましくないテキストからの脅威により、モデルの安全性と品質に関する重大な懸念が伴う。
言語モデルの知識を更新して信頼性を維持するためには、新しいデータの純度が不可欠であった。
本稿では,Webデータを自動的に収集・浄化するシステムであるAutoPureDataを提案する。
そのシステムはWebデータのサンプルをロードした。
既存の信頼されたAIモデルを利用することで、97%の精度で安全でないテキストと86%の精度で望ましくないテキストを排除し、データを浄化するシステムの有効性を実証した。
このシステムは、LLMの知識を更新するために、有意義で安全なテキストのみを使用できることを保証している。
純粋なテキストは最適化され、将来的なクエリのためにベクトルデータベースに格納される。
LLMはベクトルDBから新たなデータを取得することができることがわかった。
LLMは、ユーザのクエリが他の言語である場合でも、RAGクエリを英語で記述し、システムが言語間検索を実行できることを証明している。
本稿では, LLMの知識を更新するために, 精製データのみを使用していたことを保証することにより, 最新の言語モデルの精度と妥当性を維持する手法を提案する。
この研究は、有意義で安全なテキストを使用してチャットボットの知識を更新し、様々な産業で有用性を向上し、安全でないデータや不確実なデータによるアウトプットに関連するリスクを減らすことに寄与する。
コードはgithub.com/Pro-GenAI/AutoPureDataで入手できる。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - When to Trust Your Data: Enhancing Dyna-Style Model-Based Reinforcement Learning With Data Filter [7.886307329450978]
ダイナスタイルのアルゴリズムは、推定環境モデルからのシミュレーションデータを用いてモデルフリートレーニングを加速することにより、2つのアプローチを組み合わせる。
これまでの作業では、モデルアンサンブルを使用したり、実際の環境から収集されたデータで推定されたモデルを事前訓練することで、この問題に対処している。
本研究では,実環境において収集したデータから大きく分岐する推定モデルからシミュレーションデータを除去するアウト・オブ・ディストリビューションデータフィルタを提案する。
論文 参考訳(メタデータ) (2024-10-16T01:49:03Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Releasing Malevolence from Benevolence: The Menace of Benign Data on Machine Unlearning [28.35038726318893]
大量の実データや合成データに基づいてトレーニングされた機械学習モデルは、様々な領域で優れた予測性能を達成する。
プライバシの懸念に対処するため、モデルから特定のデータサンプルを削除するために、機械学習が提案されている。
本研究では,データ配信情報を少量の良質なデータ集合に抽出するために,Unlearning Usability Attackを導入する。
論文 参考訳(メタデータ) (2024-07-06T15:42:28Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation [31.592761504827187]
現在の模倣学習(IL)は通常不完全なデータを破棄し、成功した専門家データにのみ焦点をあてる。
本稿では、専門家と不完全なデータを組み合わせた自己監督データフィルタリングフレームワーク(SSDF)を導入し、故障したトラジェクトリセグメントの品質スコアを計算する。
SSDFは、高品質な不完全なデータでトレーニングデータセットを正確に拡張し、すべてのロボット操作タスクの成功率を改善する。
論文 参考訳(メタデータ) (2024-01-17T04:15:56Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。
我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。
我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文 参考訳(メタデータ) (2023-09-29T17:37:29Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。