論文の概要: Iterative Definition Refinement for Zero-Shot Classification via LLM-Based Semantic Prototype Optimization
- arxiv url: http://arxiv.org/abs/2604.27335v1
- Date: Thu, 30 Apr 2026 02:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.883575
- Title: Iterative Definition Refinement for Zero-Shot Classification via LLM-Based Semantic Prototype Optimization
- Title(参考訳): LLMに基づくセマンティックプロトタイプ最適化によるゼロショット分類の反復的定義修正
- Authors: Naeem Rehmat, Muhammad Saad Saeed, Ijaz Ul Haq, Khalid Malik,
- Abstract要約: Webフィルタリングシステムは、サイバー脅威をブロックし、データの流出を防ぎ、コンプライアンスを確保するために、正確なWebコンテンツ分類に依存している。
埋め込みベースのゼロショットアプローチは、コンテンツとカテゴリ記述を共有意味空間にマッピングする。
不明確な定義は埋め込み空間において意味的な重複を生じさせ、体系的な誤分類をもたらす。
ゼロショットウェブコンテンツ分類を改善する訓練不要で適応的な反復的定義改善フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.7288526441135115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web filtering systems rely on accurate web content classification to block cyber threats, prevent data exfiltration, and ensure compliance. However, classification is increasingly difficult due to the dynamic and rapidly evolving nature of the modern web. Embedding-based zero-shot approaches map content and category descriptions into a shared semantic space, enabling label assignment without labeled training data, but remain highly sensitive to definition quality. Poorly specified or ambiguous definitions create semantic overlap in the embedding space, leading to systematic misclassification. In this paper, we propose a training-free, adaptive iterative definition refinement framework that improves zero-shot web content classification by progressively optimizing category definitions rather than updating model parameters. Using LLMs as feedback-driven definition optimizers, we investigate three refinement strategies namely example-guided, confusion-aware, and history-aware, each refining class descriptions using structured signals from misclassified instances. Furthermore, we introduce a human-labeled benchmark of 10 URL categories with 1,000 samples per class and evaluate across 13 state-of-the-art embedding foundation models. Results demonstrate that iterative definition refinement consistently improves classification performance across diverse architectures, establishing definition quality as a critical and underexplored factor in embedding-based systems. The dataset is available at https://github.com/naeemrehmat/B2MWT-10C.
- Abstract(参考訳): Webフィルタリングシステムは、サイバー脅威をブロックし、データの流出を防ぎ、コンプライアンスを確保するために、正確なWebコンテンツ分類に依存している。
しかし、現代ウェブの動的で急速に進化する性質のため、分類はますます困難になっている。
埋め込みベースのゼロショットは、コンテンツとカテゴリ記述を共有セマンティック空間にマッピングし、ラベル付きトレーニングデータなしでラベルを割り当てるが、定義品質に非常に敏感である。
不明確な定義は埋め込み空間において意味的な重複を生じさせ、体系的な誤分類をもたらす。
本稿では,モデルパラメータを更新するのではなく,カテゴリ定義を段階的に最適化することで,ゼロショットWebコンテンツ分類を改善する,学習自由で適応的な反復的定義改善フレームワークを提案する。
LLMをフィードバック駆動型定義オプティマイザとして使用し、サンプル誘導、混乱認識、履歴認識という3つの改善戦略を検証し、それぞれが誤分類されたインスタンスからの構造化信号を用いてクラス記述を精製する。
さらに,10のURLカテゴリとクラス毎1,000のサンプルのラベル付きベンチマークを導入し,13の最先端組込み基盤モデルに対して評価を行った。
その結果、反復的定義の洗練は様々なアーキテクチャの分類性能を一貫して改善し、組み込みシステムにおいて、定義品質を重要かつ過小評価された要素として確立することを示した。
データセットはhttps://github.com/naeemrehmat/B2MWT-10Cで公開されている。
関連論文リスト
- GLiClass: Generalist Lightweight Model for Sequence Classification Tasks [49.2639069781367]
本稿では,シーケンス分類タスクにGLiNERアーキテクチャを適用する新しい手法であるGLiClassを提案する。
提案手法は,ゼロショットおよび少数ショット学習シナリオに必要な柔軟性を維持しつつ,埋め込み方式に匹敵する高い精度と効率を実現する。
論文 参考訳(メタデータ) (2025-08-11T06:22:25Z) - Small sample-based adaptive text classification through iterative and contrastive description refinement [0.0]
大規模言語モデル(LLM)は、進化する知識とあいまいなカテゴリ境界を持つ領域の一般化に苦慮することが多い。
本稿では,反復的トピック洗練,コントラスト的プロンプト,アクティブラーニングを組み合わせた分類フレームワークを提案する。
このフレームワークはHuman-in-the-loopコンポーネントを備えており、自然言語でカテゴリ定義を導入したり、改訂したりすることができる。
論文 参考訳(メタデータ) (2025-08-01T11:12:38Z) - Towards Privacy-Preserving Fine-Grained Visual Classification via Hierarchical Learning from Label Proportions [25.974006393027228]
本稿では,インスタンスラベルに直接アクセスすることなく,高精度な粒度認識を実現することを目的とする。
既存のLPPベースの手法とは異なり、我々のフレームワークはきめ細かいデータセットの階層的性質を明示的に活用する。
論文 参考訳(メタデータ) (2025-05-29T03:18:25Z) - Latent Enhancing AutoEncoder for Occluded Image Classification [2.6217304977339473]
LEARN: Latent Enhancing feature Reconstruction Networkを紹介する。
オートエンコーダベースのネットワークで、頭の前に分類モデルに組み込むことができる。
OccludedPASCAL3D+データセットでは、提案されたLEARNが標準分類モデルより優れている。
論文 参考訳(メタデータ) (2024-02-10T12:22:31Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。