論文の概要: CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification
- arxiv url: http://arxiv.org/abs/2410.03038v1
- Date: Mon, 7 Oct 2024 02:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 04:16:10.926629
- Title: CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification
- Title(参考訳): CPFD: 短いビデオ分類のための信頼を意識したプリビレギュラー機能蒸留
- Authors: Jinghao Shi, Xiang Shen, Kaili Zhao, Xuedong Wang, Vera Wen, Zixuan Wang, Yifan Wu, Zhixin Zhang,
- Abstract要約: CPFD (Confidence-aware Privileged Feature Distillation) について報告する。
CPFDは訓練中に特権的特徴を適応的に蒸留する。
ビデオ分類のF1スコアは、X-VLM (End-to-end multimodal-model) と比較して6.76%改善し、バニラ平均で2.31%向上した。
パフォーマンスギャップを84.6%削減し、教師モデルDF-X-VLMに匹敵する結果を得る。
- 参考スコア(独自算出の注目度): 18.713678185244706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense features, customized for different business scenarios, are essential in short video classification. However, their complexity, specific adaptation requirements, and high computational costs make them resource-intensive and less accessible during online inference. Consequently, these dense features are categorized as `Privileged Dense Features'.Meanwhile, end-to-end multi-modal models have shown promising results in numerous computer vision tasks. In industrial applications, prioritizing end-to-end multi-modal features, can enhance efficiency but often leads to the loss of valuable information from historical privileged dense features.To integrate both features while maintaining efficiency and manageable resource costs, we present Confidence-aware Privileged Feature Distillation (CPFD), which empowers features of an end-to-end multi-modal model by adaptively distilling privileged features during training.Unlike existing privileged feature distillation (PFD) methods, which apply uniform weights to all instances during distillation, potentially causing unstable performance across different business scenarios and a notable performance gap between teacher model (Dense Feature enhanced multimodal-model DF-X-VLM) and student model (multimodal-model only X-VLM), our CPFD leverages confidence scores derived from the teacher model to adaptively mitigate the performance variance with the student model.We conducted extensive offline experiments on five diverse tasks demonstrating that CPFD improves the video classification F1 score by 6.76% compared with end-to-end multimodal-model (X-VLM) and by 2.31% with vanilla PFD on-average. And it reduces the performance gap by 84.6% and achieves results comparable to teacher model DF-X-VLM. The effectiveness of CPFD is further substantiated by online experiments, and our framework has been deployed in production systems for over a dozen models.
- Abstract(参考訳): 異なるビジネスシナリオ用にカスタマイズされたDense機能は、ショートビデオ分類に不可欠である。
しかしながら、それらの複雑さ、特定の適応要件、高い計算コストは、オンライン推論中にリソース集約的でアクセスしにくくする。
そのため、これらの密集した特徴は「プリヴィレグド・デンス・フィーチャー」に分類される。
一方、エンドツーエンドのマルチモーダルモデルは、多くのコンピュータビジョンタスクにおいて有望な結果を示している。
産業アプリケーションにおいて、エンド・ツー・エンドのマルチモーダル特徴の優先順位付けは効率を向上するが、しばしば歴史的な特権的特徴から貴重な情報を失うことにつながる。信頼性と管理可能な資源コストの両機能を統合するため、トレーニング中に特権的特徴を適応的に蒸留することで、エンド・ツー・エンドのマルチモーダルモデルの特徴を付与するCPFDを提示する。既存の特権的特徴蒸留(PFD)とは異なり、蒸留中の全てのインスタンスに均一な重みを付与し、異なるビジネスシナリオ間で不安定なパフォーマンスを生じさせ、教師モデル(Dense機能強化型マルチモーダルモデルDFX-VLM)と学生モデル(マルチモーダルモデルX-VLM)の間に顕著なパフォーマンスギャップを生じさせる可能性がある。
そして、パフォーマンスギャップを84.6%削減し、教師モデルDF-X-VLMに匹敵する結果を得る。
CPFDの有効性はオンライン実験によってさらに裏付けられ,本フレームワークは10以上のモデルで実運用システムに展開されている。
関連論文リスト
- Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - Dependable Distributed Training of Compressed Machine Learning Models [16.403297089086042]
信頼性のある学習オーケストレーションのためのフレームワークであるDepLを提案する。
i) 学習に活用するデータ、(ii) 使用するモデルと、それらに切り替えるタイミング、(iii) ノードのクラスタとそのリソースについて、高品質で効率的な決定を行う。
DepLの競合比と複雑性は一定であり、最先端技術よりも27%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-02-22T07:24:26Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。