論文の概要: CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification
- arxiv url: http://arxiv.org/abs/2410.03038v2
- Date: Mon, 07 Oct 2024 02:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:43:43.626004
- Title: CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification
- Title(参考訳): CPFD: 短いビデオ分類のための信頼を意識したプリビレギュラー機能蒸留
- Authors: Jinghao Shi, Xiang Shen, Kaili Zhao, Xuedong Wang, Vera Wen, Zixuan Wang, Yifan Wu, Zhixin Zhang,
- Abstract要約: CPFD (Confidence-aware Privileged Feature Distillation) について報告する。
CPFDは訓練中に特権的な高密度な特徴を適応的に蒸留する。
ビデオ分類のF1スコアは、エンドツーエンドのマルチモーダルモデル(X-VLM)と比較して6.76%改善され、バニラ平均で2.31%向上した。
パフォーマンスギャップを84.6%削減し、教師モデルDF-X-VLMに匹敵する結果を得る。
- 参考スコア(独自算出の注目度): 18.713678185244706
- License:
- Abstract: Dense features, customized for different business scenarios, are essential in short video classification. However, their complexity, specific adaptation requirements, and high computational costs make them resource-intensive and less accessible during online inference. Consequently, these dense features are categorized as `Privileged Dense Features'.Meanwhile, end-to-end multi-modal models have shown promising results in numerous computer vision tasks. In industrial applications, prioritizing end-to-end multi-modal features, can enhance efficiency but often leads to the loss of valuable information from historical privileged dense features. To integrate both features while maintaining efficiency and manageable resource costs, we present Confidence-aware Privileged Feature Distillation (CPFD), which empowers features of an end-to-end multi-modal model by adaptively distilling privileged features during training. Unlike existing privileged feature distillation (PFD) methods, which apply uniform weights to all instances during distillation, potentially causing unstable performance across different business scenarios and a notable performance gap between teacher model (Dense Feature enhanced multimodal-model DF-X-VLM) and student model (multimodal-model only X-VLM), our CPFD leverages confidence scores derived from the teacher model to adaptively mitigate the performance variance with the student model. We conducted extensive offline experiments on five diverse tasks demonstrating that CPFD improves the video classification F1 score by 6.76% compared with end-to-end multimodal-model (X-VLM) and by 2.31% with vanilla PFD on-average. And it reduces the performance gap by 84.6% and achieves results comparable to teacher model DF-X-VLM. The effectiveness of CPFD is further substantiated by online experiments, and our framework has been deployed in production systems for over a dozen models.
- Abstract(参考訳): 異なるビジネスシナリオ用にカスタマイズされたDense機能は、ショートビデオ分類に不可欠である。
しかしながら、それらの複雑さ、特定の適応要件、高い計算コストは、オンライン推論中にリソース集約的でアクセスしにくくする。
そのため、これらの密集した特徴は「プリヴィレグド・デンス・フィーチャー」に分類される。
一方、エンドツーエンドのマルチモーダルモデルは、多くのコンピュータビジョンタスクにおいて有望な結果を示している。
産業アプリケーションでは、エンドツーエンドのマルチモーダル特徴の優先順位付けは効率を高めることができるが、しばしば歴史的特権のある高機能特徴から貴重な情報が失われる。
資源コストと効率性を維持しつつ両機能を統合するため,訓練中の特権的特徴を適応的に蒸留することにより,エンド・ツー・エンドのマルチモーダルモデルの特徴を増強する信頼性の高いプリビレグド・フィーチャー蒸留(CPFD)を提案する。
従来の特権的特徴蒸留法(PFD)は, 蒸留中の全ての事例に均一な重み付けを施し, 異なる事業シナリオ間での不安定なパフォーマンスと, 教師モデル(Dense Feature enhanced multimodal-model DF-X-VLM)と学生モデル(multimodal-model only X-VLM)の顕著なパフォーマンスギャップを生じさせる可能性がある。
我々は、CPFDがビデオ分類F1のスコアを、X-VLM(End-to-end Multimodal-model)と比較して6.76%改善し、バニラPFDを平均2.31%改善することを示す5つの多様なタスクについて、広範囲にわたるオフライン実験を行った。
そして、パフォーマンスギャップを84.6%削減し、教師モデルDF-X-VLMに匹敵する結果を得る。
CPFDの有効性はオンライン実験によってさらに裏付けられ,本フレームワークは10以上のモデルで実運用システムに展開されている。
関連論文リスト
- FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - Dependable Distributed Training of Compressed Machine Learning Models [16.403297089086042]
信頼性のある学習オーケストレーションのためのフレームワークであるDepLを提案する。
i) 学習に活用するデータ、(ii) 使用するモデルと、それらに切り替えるタイミング、(iii) ノードのクラスタとそのリソースについて、高品質で効率的な決定を行う。
DepLの競合比と複雑性は一定であり、最先端技術よりも27%以上向上していることを示す。
論文 参考訳(メタデータ) (2024-02-22T07:24:26Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - VideoAdviser: Video Knowledge Distillation for Multimodal Transfer
Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。
本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。
本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文 参考訳(メタデータ) (2023-09-27T08:44:04Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。