Fugu-MT 論文翻訳(概要): Web Content Filtering through knowledge distillation of Large Language Models

論文の概要: Web Content Filtering through knowledge distillation of Large Language Models

arxiv url: http://arxiv.org/abs/2305.05027v2
Date: Wed, 10 May 2023 08:36:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-11 16:01:15.649968
Title: Web Content Filtering through knowledge distillation of Large Language Models
Title（参考訳）: 大規模言語モデルの知識蒸留によるWebコンテンツフィルタリング
Authors: Tam\'as V\"or\"os, Sean Paul Bergeron, Konstantin Berlin
Abstract要約: LLM(Large Language Models)のパワーを活用したURL分類のための最先端のアプローチを提案する。提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, ウェブコンテンツフィルタリングに適した, より小型で専門的な学生モデルを作成する。我々の学生モデルは教師のLLMのパフォーマンスを175倍のパラメータで比較し、大量のURLのインラインスキャンに使用することができる。
参考スコア（独自算出の注目度）: 1.7446104539598901
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We introduce a state-of-the-art approach for URL categorization that leverages the power of Large Language Models (LLMs) to address the primary objectives of web content filtering: safeguarding organizations from legal and ethical risks, limiting access to high-risk or suspicious websites, and fostering a secure and professional work environment. Our method utilizes LLMs to generate accurate classifications and then employs established knowledge distillation techniques to create smaller, more specialized student models tailored for web content filtering. Distillation results in a student model with a 9% accuracy rate improvement in classifying websites, sourced from customer telemetry data collected by a large security vendor, into 30 distinct content categories based on their URLs, surpassing the current state-of-the-art approach. Our student model matches the performance of the teacher LLM with 175 times less parameters, allowing the model to be used for in-line scanning of large volumes of URLs, and requires 3 orders of magnitude less manually labeled training data than the current state-of-the-art approach. Depending on the specific use case, the output generated by our approach can either be directly returned or employed as a pre-filter for more resource-intensive operations involving website images or HTML.
Abstract（参考訳）: 本稿では,Large Language Models(LLMs)の能力を活用して,Webコンテンツフィルタリングの主な目的である,リスクの高いWebサイトへのアクセスの制限,安全で専門的な作業環境の育成といった,URL分類の最先端のアプローチを紹介する。提案手法では, LLMを用いて正確な分類を行い, 既存の知識蒸留技術を用いて, Webコンテンツフィルタリングに適したより小型で専門的な学生モデルを作成する。蒸留の結果、大手セキュリティベンダーが収集した顧客のテレメトリデータから抽出したウェブサイトの分類精度が9%向上した学生モデルが、urlに基づいて30の異なるコンテンツカテゴリに分類され、現在の最先端のアプローチを上回った。我々の学生モデルは、教師のLLMのパフォーマンスを175倍のパラメータで一致させ、大量のURLをインラインでスキャンするためにモデルを使用できるようにし、現在の最先端のアプローチよりも手動でラベル付けされたトレーニングデータを3桁も少なくする。特定のユースケースによっては、我々のアプローチによって生成された出力を直接返却するか、WebサイトイメージやHTMLを含むよりリソース集約的な操作のためのプリフィルタとして使用できる。

関連論文リスト

Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文参考訳（メタデータ） (2025-06-18T15:26:43Z)
A New Dataset and Methodology for Malicious URL Classification [2.835223467109843]
悪意のあるURL(Uniform Resource Locator)分類はサイバーセキュリティの重要な側面であり、Webベースの脅威に対する防御を提供する。この分野でのディープラーニングの約束にもかかわらず、その進歩は、包括的なオープンソースデータセットの不足と、既存のモデルの制限という、2つの大きな課題によって妨げられている。悪意のあるURL分類のための新しいマルチクラスデータセットを導入し、良性、フィッシング、悪意のあるURLを区別する。
論文参考訳（メタデータ） (2024-12-31T09:10:38Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Evaluating Large Language Model based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)は、攻撃者が個人プロファイルから様々な個人情報を正確に抽出するために誤用することができる。 LLMはそのような抽出において従来の方法より優れている。即時注射は、そのようなリスクを広範囲に軽減し、従来の対策より優れている。
論文参考訳（メタデータ） (2024-08-14T04:49:30Z)
Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文参考訳（メタデータ） (2024-07-23T14:31:59Z)
Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T14:28:56Z)
Large Language Model-guided Document Selection [23.673690115025913]
大規模言語モデル(LLM)の事前学習は、ますます増加する計算予算を消費する。近年の研究では、ドキュメントの選択がFLOPのごく一部で同等のモデル品質を実現することが実証されている。拡張性のある汎用ドメイン文書選択のための有望な方向を探究する。
論文参考訳（メタデータ） (2024-06-07T04:52:46Z)
The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文参考訳（メタデータ） (2023-05-18T14:20:32Z)
Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。 REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2023-01-17T18:59:06Z)
Responsive parallelized architecture for deploying deep learning models in production environments [0.10152838128195467]
リクルーターは、カリキュラムヴィタエ(CV)文書を閲覧することで、求職者の候補を簡単にショートリストできる。非構造化文書 CV は候補者のポートフォリオを保持し、詳細をリストアップするエンティティを命名する。本研究の目的は、CVエンティティを体系的に予測するWeb指向で応答性の高い計算パイプラインの設計と提案である。
論文参考訳（メタデータ） (2021-12-15T04:22:56Z)
Classification of URL bitstreams using Bag of Bytes [3.2204506933585026]
本稿では,URL文字列から特徴ベクトルを生成するための機械的手法を適用する。従来のDL法に比べて精度が23%向上した。
論文参考訳（メタデータ） (2021-11-11T07:43:45Z)
Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2021-01-20T13:07:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。