論文の概要: PRG: Prompt-Based Distillation Without Annotation via Proxy Relational Graph
- arxiv url: http://arxiv.org/abs/2408.12248v1
- Date: Thu, 22 Aug 2024 09:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 14:33:24.951561
- Title: PRG: Prompt-Based Distillation Without Annotation via Proxy Relational Graph
- Title(参考訳): PRG:プロキシリレーショナルグラフによるアノテーションのないプロンプトベースの蒸留
- Authors: Yijin Xu, Jialun Liu, Hualiang Wei, Wenhui Li,
- Abstract要約: 本稿では,LFM(Large Foundation Models)から知識を軽量モデルに抽出する蒸留法を提案する。
まず,テキストのプロンプト埋め込みによって得られた重み付き平均ロジットを計算し,LFMからタスク関連知識を抽出する。
次に, LFMモデルと学生モデルのためのサンプルクラスプロキシグラフを構築し, サンプルとクラスプロキシの相関関係をモデル化する。
我々は, LFMと学生モデルの両方が生成する関係グラフを整列させて, 選択的知識の蒸留を実現する。
- 参考スコア(独自算出の注目度): 7.380143366554835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new distillation method for extracting knowledge from Large Foundation Models (LFM) into lightweight models, introducing a novel supervision mode that does not require manually annotated data. While LFMs exhibit exceptional zero-shot classification abilities across datasets, relying solely on LFM-generated embeddings for distillation poses two main challenges: LFM's task-irrelevant knowledge and the high density of features. The transfer of task-irrelevant knowledge could compromise the student model's discriminative capabilities, and the high density of features within target domains obstructs the extraction of discriminative knowledge essential for the task. To address this issue, we introduce the Proxy Relational Graph (PRG) method. We initially extract task-relevant knowledge from LFMs by calculating a weighted average of logits obtained through text prompt embeddings. Then we construct sample-class proxy graphs for LFM and student models, respectively, to model the correlation between samples and class proxies. Then, we achieve the distillation of selective knowledge by aligning the relational graphs produced by both the LFM and the student model. Specifically, the distillation from LFM to the student model is achieved through two types of alignment: 1) aligning the sample nodes produced by the student model with those produced by the LFM, and 2) aligning the edge relationships in the student model's graph with those in the LFM's graph. Our experimental results validate the effectiveness of PRG, demonstrating its ability to leverage the extensive knowledge base of LFMs while skillfully circumventing their inherent limitations in focused learning scenarios. Notably, in our annotation-free framework, PRG achieves an accuracy of 76.23\% (T: 77.9\%) on CIFAR-100 and 72.44\% (T: 75.3\%) on the ImageNet-1K.
- Abstract(参考訳): 本稿では,LFM(Large Foundation Models)から知識を軽量モデルに抽出する新しい蒸留法を提案する。
LFMはデータセット全体にわたって例外的なゼロショット分類能力を示すが、LFMの生成した蒸留への埋め込みのみに依存しているため、2つの大きな課題がある: LFMのタスク関連知識と特徴の高密度である。
タスク非関連知識の伝達は、学生モデルの識別能力を損なう可能性があり、ターゲット領域内の特徴の高密度さは、タスクに不可欠な識別的知識の抽出を妨げる。
この問題に対処するために,プロキシリレーショナルグラフ(PRG)法を提案する。
テキスト・プロンプトの埋め込みによって得られたロジットの重み付け平均を計算し,まず LFM からタスク関連知識を抽出する。
次に, LFMモデルと学生モデルのためのサンプルクラスプロキシグラフを構築し, サンプルとクラスプロキシの相関関係をモデル化する。
そして, LFMと学生モデルの両方で生成された関係グラフを整列させて, 選択的知識の蒸留を実現する。
具体的には, LFMから学生モデルへの蒸留は, 2種類のアライメントによって達成される。
1)学生モデルで作成したサンプルノードをFMで作成したノードと整合させ、
2)学生モデルのグラフのエッジ関係とLFMのグラフのエッジ関係の整合性について検討した。
実験の結果, PRGの有効性を検証し, LFMの広範な知識基盤を活用できると同時に, 集中学習シナリオにおける固有の制約を巧みに回避できることを示した。
特にアノテーションのないフレームワークでは、CIFAR-100では76.23\%(T:77.9\%)、ImageNet-1Kでは72.44\%(T:75.3\%)となる。
関連論文リスト
- How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Graph Relation Distillation for Efficient Biomedical Instance
Segmentation [80.51124447333493]
本稿では,効率的なバイオメディカル・インスタンス・セグメンテーションのためのグラフ関係蒸留手法を提案する。
画像内レベルと画像間レベルの両方に展開する2つのグラフ蒸留方式を導入する。
多くのバイオメディカルデータセットの実験結果から,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-01-12T04:41:23Z) - H-ensemble: An Information Theoretic Approach to Reliable Few-Shot
Multi-Source-Free Transfer [4.328706834250445]
本稿では,対象タスクに対するソースモデルの最適線形結合を学習するHアンサンブル(H-ensemble)というフレームワークを提案する。
H-アンサンブルは,1)少数の目標タスクに対する新しいMSF設定への適応性,2)理論的信頼性,3)解釈や適応が容易な軽量構造を特徴とする。
我々は,Hアンサンブルが最適なタスクアンサンブルを学習し,先行技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-19T17:39:34Z) - Learn From Model Beyond Fine-Tuning: A Survey [78.80920533793595]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - TDCGL: Two-Level Debiased Contrastive Graph Learning for Recommendation [1.5836776102398225]
実世界におけるKGの実体の長期分布とノイズ問題により、アイテム・エンティリティ依存関係は真の特性を反映しない。
我々はTDCL(Two-Level Debiased Contrastive Learning)を設計し、知識グラフに展開する。
オープンソースデータセットに関する検討実験により,提案手法は優れたアンチノイズ性能を有することが示された。
論文 参考訳(メタデータ) (2023-10-01T03:56:38Z) - CORSD: Class-Oriented Relational Self Distillation [16.11986532440837]
知識蒸留は、いくつかの制限を保ちながら効果的なモデル圧縮方法を実行する。
制約に対処するために,クラス指向自己蒸留(CORSD)という新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-28T16:00:31Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Learning Slice-Aware Representations with Mixture of Attentions [38.74444452556773]
この研究は、最近のスライスベース学習(SBL)トポチェン2019スライスを拡張し、注意(MoA)を混合してスライス対応の注意的二重表現を学習する。
2つの自然言語理解タスクを持つ監視されたスライスに対して,MoAアプローチがベースライン手法と元のSBLアプローチより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-06-04T09:22:24Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。