論文の概要: CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification
- arxiv url: http://arxiv.org/abs/2410.03038v1
- Date: Mon, 7 Oct 2024 02:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 04:16:10.926629
- Title: CPFD: Confidence-aware Privileged Feature Distillation for Short Video Classification
- Title(参考訳): CPFD: 短いビデオ分類のための信頼を意識したプリビレギュラー機能蒸留
- Authors: Jinghao Shi, Xiang Shen, Kaili Zhao, Xuedong Wang, Vera Wen, Zixuan Wang, Yifan Wu, Zhixin Zhang,
- Abstract要約: CPFD (Confidence-aware Privileged Feature Distillation) について報告する。
CPFDは訓練中に特権的特徴を適応的に蒸留する。
ビデオ分類のF1スコアは、X-VLM (End-to-end multimodal-model) と比較して6.76%改善し、バニラ平均で2.31%向上した。
パフォーマンスギャップを84.6%削減し、教師モデルDF-X-VLMに匹敵する結果を得る。
- 参考スコア(独自算出の注目度): 18.713678185244706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense features, customized for different business scenarios, are essential in short video classification. However, their complexity, specific adaptation requirements, and high computational costs make them resource-intensive and less accessible during online inference. Consequently, these dense features are categorized as `Privileged Dense Features'.Meanwhile, end-to-end multi-modal models have shown promising results in numerous computer vision tasks. In industrial applications, prioritizing end-to-end multi-modal features, can enhance efficiency but often leads to the loss of valuable information from historical privileged dense features.To integrate both features while maintaining efficiency and manageable resource costs, we present Confidence-aware Privileged Feature Distillation (CPFD), which empowers features of an end-to-end multi-modal model by adaptively distilling privileged features during training.Unlike existing privileged feature distillation (PFD) methods, which apply uniform weights to all instances during distillation, potentially causing unstable performance across different business scenarios and a notable performance gap between teacher model (Dense Feature enhanced multimodal-model DF-X-VLM) and student model (multimodal-model only X-VLM), our CPFD leverages confidence scores derived from the teacher model to adaptively mitigate the performance variance with the student model.We conducted extensive offline experiments on five diverse tasks demonstrating that CPFD improves the video classification F1 score by 6.76% compared with end-to-end multimodal-model (X-VLM) and by 2.31% with vanilla PFD on-average. And it reduces the performance gap by 84.6% and achieves results comparable to teacher model DF-X-VLM. The effectiveness of CPFD is further substantiated by online experiments, and our framework has been deployed in production systems for over a dozen models.
- Abstract(参考訳): 異なるビジネスシナリオ用にカスタマイズされたDense機能は、ショートビデオ分類に不可欠である。
しかしながら、それらの複雑さ、特定の適応要件、高い計算コストは、オンライン推論中にリソース集約的でアクセスしにくくする。
そのため、これらの密集した特徴は「プリヴィレグド・デンス・フィーチャー」に分類される。
一方、エンドツーエンドのマルチモーダルモデルは、多くのコンピュータビジョンタスクにおいて有望な結果を示している。
産業アプリケーションにおいて、エンド・ツー・エンドのマルチモーダル特徴の優先順位付けは効率を向上するが、しばしば歴史的な特権的特徴から貴重な情報を失うことにつながる。信頼性と管理可能な資源コストの両機能を統合するため、トレーニング中に特権的特徴を適応的に蒸留することで、エンド・ツー・エンドのマルチモーダルモデルの特徴を付与するCPFDを提示する。既存の特権的特徴蒸留(PFD)とは異なり、蒸留中の全てのインスタンスに均一な重みを付与し、異なるビジネスシナリオ間で不安定なパフォーマンスを生じさせ、教師モデル(Dense機能強化型マルチモーダルモデルDFX-VLM)と学生モデル(マルチモーダルモデルX-VLM)の間に顕著なパフォーマンスギャップを生じさせる可能性がある。
そして、パフォーマンスギャップを84.6%削減し、教師モデルDF-X-VLMに匹敵する結果を得る。
CPFDの有効性はオンライン実験によってさらに裏付けられ,本フレームワークは10以上のモデルで実運用システムに展開されている。
関連論文リスト
- TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8298782282181865]
本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。
TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。
これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
論文 参考訳(メタデータ) (2025-01-28T13:31:18Z) - AdaF^2M^2: Comprehensive Learning and Responsive Leveraging Features in Recommendation System [16.364341783911414]
本稿では,モデルに依存しないフレームワークであるAdaF2M2を提案する。
AdaF2M2でベースモデルを固定することにより、複数のレコメンデーションシナリオでオンラインA/Bテストを行い、ユーザアクティブ日とアプリ期間で+1.37%、+1.89%の累積的な改善を実現した。
論文 参考訳(メタデータ) (2025-01-27T06:49:27Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - STORM: A Spatio-Temporal Factor Model Based on Dual Vector Quantized Variational Autoencoders for Financial Trading [55.02735046724146]
金融取引では、ファクターモデルが資産の価格設定や過大なリターンの獲得に広く利用されている。
双対ベクトル量子化変分オートエンコーダを用いた時空間ファクトラーモデルSTORMを提案する。
ストームは時間的および空間的な視点からストックの特徴を抽出し、これらの特徴を微細で意味的なレベルで融合し整列させ、その要素を多次元の埋め込みとして表現する。
論文 参考訳(メタデータ) (2024-12-12T17:15:49Z) - Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。
本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。
我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-11-27T18:50:15Z) - Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。