論文の概要: Web Content Filtering through knowledge distillation of Large Language
Models
- arxiv url: http://arxiv.org/abs/2305.05027v1
- Date: Mon, 8 May 2023 20:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 14:33:18.503406
- Title: Web Content Filtering through knowledge distillation of Large Language
Models
- Title(参考訳): 大規模言語モデルの知識蒸留によるWebコンテンツフィルタリング
- Authors: Tam\'as V\"or\"os, Sean Paul Bergeron, Konstantin Berlin
- Abstract要約: LLM(Large Language Models)のパワーを活用したURL分類のための最先端のアプローチを提案する。
提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, ウェブコンテンツフィルタリングに適した, より小型で専門的な学生モデルを作成する。
我々の学生モデルは教師のLLMのパフォーマンスを175倍のパラメータで比較し、大量のURLのインラインスキャンに使用することができる。
- 参考スコア(独自算出の注目度): 1.7446104539598901
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a state-of-the-art approach for URL categorization that
leverages the power of Large Language Models (LLMs) to address the primary
objectives of web content filtering: safeguarding organizations from legal and
ethical risks, limiting access to high-risk or suspicious websites, and
fostering a secure and professional work environment. Our method utilizes LLMs
to generate accurate classifications and then employs established knowledge
distillation techniques to create smaller, more specialized student models
tailored for web content filtering. Distillation results in a student model
with a 9\% accuracy rate improvement in classifying websites, sourced from
customer telemetry data collected by a large security vendor, into 30 distinct
content categories based on their URLs, surpassing the current state-of-the-art
approach. Our student model matches the performance of the teacher LLM with 175
times less parameters, allowing the model to be used for in-line scanning of
large volumes of URLs, and requires 3 orders of magnitude less manually labeled
training data than the current state-of-the-art approach. Depending on the
specific use case, the output generated by our approach can either be directly
returned or employed as a pre-filter for more resource-intensive operations
involving website images or HTML.
- Abstract(参考訳): 本稿では,Large Language Models(LLMs)の能力を活用して,Webコンテンツフィルタリングの主な目的である,リスクの高いWebサイトへのアクセスの制限,安全で専門的な作業環境の育成といった,URL分類の最先端のアプローチを紹介する。
提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, Webコンテンツフィルタリングに適したより小型で専門的な学生モデルを作成する。
蒸留の結果,大手セキュリティベンダが収集した顧客テレメトリデータから抽出したwebサイトの分類精度が9~%向上した学生モデルが,urlに基づく30の異なるコンテンツカテゴリに分類され,現在の最先端アプローチを上回った。
我々の学生モデルは、教師のLLMのパフォーマンスを175倍のパラメータで一致させ、大量のURLをインラインでスキャンするためにモデルを使用できるようにし、現在の最先端のアプローチよりも手動でラベル付けされたトレーニングデータを3桁も少なくする。
特定のユースケースによっては、我々のアプローチによって生成された出力を直接返却するか、WebサイトイメージやHTMLを含むよりリソース集約的な操作のためのプリフィルタとして使用できる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。
LLMはそのような抽出において従来の方法より優れている。
即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。
近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。
拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文 参考訳(メタデータ) (2024-06-07T04:52:46Z) - LOLA: LLM-Assisted Online Learning Algorithm for Content Experiments [2.2021543101231167]
本稿では LLM-Assisted Online Learning Algorithm (LOLA) を紹介する。
LOLAは、LLM(Large Language Models)と適応的な実験を統合し、コンテンツ配信を最適化する。
Upworthyデータに対する数値実験により、LOLAは標準A/B試験法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-03T07:56:58Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Classification of URL bitstreams using Bag of Bytes [3.2204506933585026]
本稿では,URL文字列から特徴ベクトルを生成するための機械的手法を適用する。
従来のDL法に比べて精度が23%向上した。
論文 参考訳(メタデータ) (2021-11-11T07:43:45Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。