論文の概要: PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.00910v1
- Date: Sun, 01 Jun 2025 08:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.785206
- Title: PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models
- Title(参考訳): PCoreSet:視覚言語モデルからの知識蒸留による効果的なアクティブラーニング
- Authors: Seongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang,
- Abstract要約: 本稿では,能動学習と知識蒸留を統合したフレームワークであるActiveKDを紹介する。
特徴空間よりも確率空間のカバレッジを最大化する選択戦略であるPCoreSetを提案する。
PCoreSetはActiveKDフレームワーク内の既存の選択メソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 46.61443903356605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation (KD) is a widely used framework for training compact, task-specific models by leveraging the knowledge of teacher models. However, its application to active learning (AL), which aims to minimize annotation costs through iterative sample selection, remains underexplored. This gap stems from the fact that KD typically assumes access to sufficient labeled data, whereas AL operates in data-scarce scenarios where task-specific teacher models are often unavailable. In this paper, we introduce ActiveKD, a framework that integrates AL with KD by leveraging the zero- and few-shot capabilities of large vision-language models (VLMs). A key aspect of ActiveKD is the structured prediction bias of VLMs -- i.e., their predictions form clusters in the probability space. We regard this structure as an inductive bias of the teacher model, capturing generalizable output patterns beneficial to student learning. To exploit this bias, we propose Probabilistic CoreSet (PCoreSet), a selection strategy that maximizes coverage in the probability space rather than the feature space. PCoreSet strategically selects categorically diverse unlabeled samples, facilitating more efficient transfer of teacher knowledge under limited annotation budgets. Evaluations on 11 datasets show that PCoreSet consistently outperforms existing selection methods within the ActiveKD framework, advancing research at the intersection of AL and KD.
- Abstract(参考訳): 知識蒸留(KD)は、教師モデルの知識を活用することで、コンパクトでタスク固有のモデルを訓練するための広く使われているフレームワークである。
しかし, 反復的サンプル選択によるアノテーションコストの最小化を目的とした能動学習(AL)への適用は未検討である。
このギャップは、一般的にKDが十分なラベル付きデータへのアクセスを前提としているのに対して、ALはタスク固有の教師モデルがしばしば利用できないデータ共有シナリオで動作しているという事実に起因している。
本稿では,大規模な視覚言語モデル(VLM)のゼロショット機能を活用することで,ALとKDを統合するフレームワークであるActiveKDを紹介する。
ActiveKDの重要な側面は、VLMの構造的予測バイアスである。
この構造を教師モデルの帰納バイアスとみなし、学生の学習に有用な一般化可能な出力パターンを抽出する。
このバイアスを利用するために,特徴空間ではなく,確率空間のカバレッジを最大化する選択戦略であるPCoreSet(Probabilistic CoreSet)を提案する。
PCoreSetは、分類学的に多様な未ラベルのサンプルを戦略的に選択し、限られたアノテーション予算の下でより効率的な教師の知識の伝達を容易にする。
11データセットの評価によると、PCoreSetはActiveKDフレームワーク内の既存の選択メソッドを一貫して上回り、ALとKDの交差点での研究を進めている。
関連論文リスト
- A Dual-Space Framework for General Knowledge Distillation of Large Language Models [98.73585104789217]
知識蒸留(KD)は、より小さなモデルに知識を移すことによって、大きな言語モデル(LLM)を圧縮する有望なソリューションである。
現在のWhite-box KDフレームワークには2つの制限がある。
我々は,教師の予測ヘッドとKDの学生モデルを統合する,二空間知識蒸留(DSKD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-15T17:38:47Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Linear Projections of Teacher Embeddings for Few-Class Distillation [14.99228980898161]
知識蒸留(KD)は、より大規模で複雑な教師モデルからより小さな学生モデルへ知識を移行するための有望なアプローチとして登場した。
学習埋め込み線形射影(LELP)と呼ばれる教師のモデル表現から知識を抽出する新しい手法を提案する。
Amazon ReviewsやSentiment140のような大規模NLPベンチマークの実験的な評価では、LELPはバイナリや少数クラスの問題に対する既存の最先端蒸留アルゴリズムと一貫して競合し、典型的には優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-30T16:07:34Z) - Densely Distilling Cumulative Knowledge for Continual Learning [14.343655566551213]
多様なタスクのシーケンシャルなトレーニングを含む継続的な学習は、しばしば破滅的な忘れに直面します。
本稿では,従来の課題の累積知識を抽出するために,Dense Knowledge Distillation (DKD)を提案する。
我々のDKDは、様々なベンチマークやシナリオで最新の最先端のベースラインを上回っています。
論文 参考訳(メタデータ) (2024-05-16T05:37:06Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - Oracle Teacher: Leveraging Target Information for Better Knowledge
Distillation of CTC Models [10.941519846908697]
我々は、コネクショニスト時間分類(CTC)に基づくシーケンスモデル、すなわち、Oracle Teacherのための新しいタイプの教師モデルを導入する。
Oracle Teacherは、ターゲット情報を参照することによって、より正確なCTCアライメントを学ぶため、より最適なガイダンスを提供することができる。
CTCアルゴリズムの多対一マッピング特性に基づいて、自明な解を効果的に防止できるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-11-05T14:14:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。