論文の概要: Web Content Filtering through knowledge distillation of Large Language
Models
- arxiv url: http://arxiv.org/abs/2305.05027v2
- Date: Wed, 10 May 2023 08:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 16:01:15.649968
- Title: Web Content Filtering through knowledge distillation of Large Language
Models
- Title(参考訳): 大規模言語モデルの知識蒸留によるWebコンテンツフィルタリング
- Authors: Tam\'as V\"or\"os, Sean Paul Bergeron, Konstantin Berlin
- Abstract要約: LLM(Large Language Models)のパワーを活用したURL分類のための最先端のアプローチを提案する。
提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, ウェブコンテンツフィルタリングに適した, より小型で専門的な学生モデルを作成する。
我々の学生モデルは教師のLLMのパフォーマンスを175倍のパラメータで比較し、大量のURLのインラインスキャンに使用することができる。
- 参考スコア(独自算出の注目度): 1.7446104539598901
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a state-of-the-art approach for URL categorization that
leverages the power of Large Language Models (LLMs) to address the primary
objectives of web content filtering: safeguarding organizations from legal and
ethical risks, limiting access to high-risk or suspicious websites, and
fostering a secure and professional work environment. Our method utilizes LLMs
to generate accurate classifications and then employs established knowledge
distillation techniques to create smaller, more specialized student models
tailored for web content filtering. Distillation results in a student model
with a 9% accuracy rate improvement in classifying websites, sourced from
customer telemetry data collected by a large security vendor, into 30 distinct
content categories based on their URLs, surpassing the current state-of-the-art
approach. Our student model matches the performance of the teacher LLM with 175
times less parameters, allowing the model to be used for in-line scanning of
large volumes of URLs, and requires 3 orders of magnitude less manually labeled
training data than the current state-of-the-art approach. Depending on the
specific use case, the output generated by our approach can either be directly
returned or employed as a pre-filter for more resource-intensive operations
involving website images or HTML.
- Abstract(参考訳): 本稿では,Large Language Models(LLMs)の能力を活用して,Webコンテンツフィルタリングの主な目的である,リスクの高いWebサイトへのアクセスの制限,安全で専門的な作業環境の育成といった,URL分類の最先端のアプローチを紹介する。
提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, Webコンテンツフィルタリングに適したより小型で専門的な学生モデルを作成する。
蒸留の結果、大手セキュリティベンダーが収集した顧客のテレメトリデータから抽出したウェブサイトの分類精度が9%向上した学生モデルが、urlに基づいて30の異なるコンテンツカテゴリに分類され、現在の最先端のアプローチを上回った。
我々の学生モデルは、教師のLLMのパフォーマンスを175倍のパラメータで一致させ、大量のURLをインラインでスキャンするためにモデルを使用できるようにし、現在の最先端のアプローチよりも手動でラベル付けされたトレーニングデータを3桁も少なくする。
特定のユースケースによっては、我々のアプローチによって生成された出力を直接返却するか、WebサイトイメージやHTMLを含むよりリソース集約的な操作のためのプリフィルタとして使用できる。
関連論文リスト
- Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [84.1784903043884]
Open-Domain Question Answering (ODQA) は、背景文書を明示的に提供せずにファクトイドの質問に答えることを目的としている。
ゼロショット設定では、Retriever-Readersのようなカスタマイズされたモデルをトレーニングするデータがないため、このタスクはより難しい。
本稿では,大規模言語モデルのパラメータに格納された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - Responsive parallelized architecture for deploying deep learning models
in production environments [0.10152838128195467]
リクルーターは、カリキュラムヴィタエ(CV)文書を閲覧することで、求職者の候補を簡単にショートリストできる。
非構造化文書 CV は候補者のポートフォリオを保持し、詳細をリストアップするエンティティを命名する。
本研究の目的は、CVエンティティを体系的に予測するWeb指向で応答性の高い計算パイプラインの設計と提案である。
論文 参考訳(メタデータ) (2021-12-15T04:22:56Z) - Classification of URL bitstreams using Bag of Bytes [3.2204506933585026]
本稿では,URL文字列から特徴ベクトルを生成するための機械的手法を適用する。
従来のDL法に比べて精度が23%向上した。
論文 参考訳(メタデータ) (2021-11-11T07:43:45Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。