論文の概要: Efficient Temporal Sentence Grounding in Videos with Multi-Teacher Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2308.03725v2
- Date: Wed, 24 Jul 2024 05:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 19:50:07.457092
- Title: Efficient Temporal Sentence Grounding in Videos with Multi-Teacher Knowledge Distillation
- Title(参考訳): マルチ教師の知識蒸留によるビデオにおける時間文の効率的な接地
- Authors: Renjie Liang, Yiming Yang, Hui Lu, Li Li,
- Abstract要約: TSGV(Temporal Sentence Grounding in Videos)は、未トリミングビデオから自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としている。
本稿では,TSGVモデルにおいて高い性能を維持しながら効率的な計算を実現することの課題について論じる。
- 参考スコア(独自算出の注目度): 29.952771954087602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Sentence Grounding in Videos (TSGV) aims to detect the event timestamps described by the natural language query from untrimmed videos. This paper discusses the challenge of achieving efficient computation in TSGV models while maintaining high performance. Most existing approaches exquisitely design complex architectures to improve accuracy with extra layers and loss, suffering from inefficiency and heaviness. Although some works have noticed that, they only make an issue of feature fusion layers, which can hardly enjoy the highspeed merit in the whole clunky network. To tackle this problem, we propose a novel efficient multi-teacher model (EMTM) based on knowledge distillation to transfer diverse knowledge from both heterogeneous and isomorphic networks. Specifically, We first unify different outputs of the heterogeneous models into one single form. Next, a Knowledge Aggregation Unit (KAU) is built to acquire high-quality integrated soft labels from multiple teachers. After that, the KAU module leverages the multi-scale video and global query information to adaptively determine the weights of different teachers. A Shared Encoder strategy is then proposed to solve the problem that the student shallow layers hardly benefit from teachers, in which an isomorphic teacher is collaboratively trained with the student to align their hidden states. Extensive experimental results on three popular TSGV benchmarks demonstrate that our method is both effective and efficient without bells and whistles.
- Abstract(参考訳): TSGV(Temporal Sentence Grounding in Videos)は、未トリミングビデオから自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としている。
本稿では,TSGVモデルにおいて高い性能を維持しながら効率的な計算を実現することの課題について論じる。
既存のアプローチのほとんどは、非効率性と重厚さに苦しむ余分なレイヤと損失で精度を向上させるために、非常に複雑なアーキテクチャを設計しています。
このことに気付いた研究はいくつかあるが、機能融合層の問題に過ぎず、ネットワーク全体の高速なメリットを享受することができない。
そこで本研究では,知識蒸留に基づく新しい多教師モデル(EMTM)を提案し,異種ネットワークと異型ネットワークの両方から多様な知識を伝達する。
具体的には、まず異種モデルの異なる出力を1つの形式にまとめる。
次に,複数の教師から高品質なソフトラベルを取得するために,知識集約ユニット(KAU)を構築した。
その後、KAUモジュールは、マルチスケールのビデオおよびグローバルクエリ情報を利用して、異なる教師の重みを適応的に決定する。
共有エンコーダ戦略は、学生の浅層層が教師の利益をほとんど得られないという問題を解決するために提案される。
3つの一般的なTSGVベンチマークによる大規模な実験結果から,ベルやホイッスルを使わずに本手法が有効かつ効果的であることが確認された。
関連論文リスト
- CFTS-GAN: Continual Few-Shot Teacher Student for Generative Adversarial Networks [0.5024983453990064]
GANでは、過度なフィットと破滅的な忘れ込みという、2つのよく知られた課題に直面しています。
本稿では,2つの課題を同時に考えるCFTS-GANのための連続的Few-shot Teacher-Student手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T20:49:08Z) - VideoAdviser: Video Knowledge Distillation for Multimodal Transfer
Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。
本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。
本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文 参考訳(メタデータ) (2023-09-27T08:44:04Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - DnS: Distill-and-Select for Efficient and Accurate Video Indexing and
Retrieval [23.42790810694723]
我々はDnS(Distill-and-Select)と呼ばれる知識蒸留フレームワークを提案する。
異なるアーキテクチャの学生を訓練し、パフォーマンスと効率のトレードオフにたどり着きます。
重要なことに、提案されたスキームは知識蒸留を、大規模で遅延のないデータセットで許可する -- これは良い学生に繋がる。
論文 参考訳(メタデータ) (2021-06-24T18:34:24Z) - Distilling a Powerful Student Model via Online Knowledge Distillation [158.68873654990895]
既存のオンライン知識蒸留アプローチは、最高のパフォーマンスを持つ学生を採用するか、より良い全体的なパフォーマンスのためのアンサンブルモデルを構築する。
本稿では,機能融合と自己蒸留という2つの要素からなるFFSDと呼ばれる新しいオンライン知識蒸留法を提案する。
論文 参考訳(メタデータ) (2021-03-26T13:54:24Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。