論文の概要: DnS: Distill-and-Select for Efficient and Accurate Video Indexing and
Retrieval
- arxiv url: http://arxiv.org/abs/2106.13266v1
- Date: Thu, 24 Jun 2021 18:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:55:19.366841
- Title: DnS: Distill-and-Select for Efficient and Accurate Video Indexing and
Retrieval
- Title(参考訳): dns:効率良く正確なビデオインデクシングと検索のための蒸留・選別
- Authors: Giorgos Kordopatis-Zilos, Christos Tzelepis, Symeon Papadopoulos,
Ioannis Kompatsiaris, Ioannis Patras
- Abstract要約: 我々はDnS(Distill-and-Select)と呼ばれる知識蒸留フレームワークを提案する。
異なるアーキテクチャの学生を訓練し、パフォーマンスと効率のトレードオフにたどり着きます。
重要なことに、提案されたスキームは知識蒸留を、大規模で遅延のないデータセットで許可する -- これは良い学生に繋がる。
- 参考スコア(独自算出の注目度): 23.42790810694723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of high performance and computationally
efficient content-based video retrieval in large-scale datasets. Current
methods typically propose either: (i) fine-grained approaches employing
spatio-temporal representations and similarity calculations, achieving high
performance at a high computational cost or (ii) coarse-grained approaches
representing/indexing videos as global vectors, where the spatio-temporal
structure is lost, providing low performance but also having low computational
cost. In this work, we propose a Knowledge Distillation framework, which we
call Distill-and-Select (DnS), that starting from a well-performing
fine-grained Teacher Network learns: a) Student Networks at different retrieval
performance and computational efficiency trade-offs and b) a Selection Network
that at test time rapidly directs samples to the appropriate student to
maintain both high retrieval performance and high computational efficiency. We
train several students with different architectures and arrive at different
trade-offs of performance and efficiency, i.e., speed and storage requirements,
including fine-grained students that store index videos using binary
representations. Importantly, the proposed scheme allows Knowledge Distillation
in large, unlabelled datasets -- this leads to good students. We evaluate DnS
on five public datasets on three different video retrieval tasks and
demonstrate a) that our students achieve state-of-the-art performance in
several cases and b) that our DnS framework provides an excellent trade-off
between retrieval performance, computational speed, and storage space. In
specific configurations, our method achieves similar mAP with the teacher but
is 20 times faster and requires 240 times less storage space. Our collected
dataset and implementation are publicly available:
https://github.com/mever-team/distill-and-select.
- Abstract(参考訳): 本稿では,大規模データセットにおける高速かつ効率的なコンテンツベースビデオ検索の問題に対処する。
i)時空間表現と類似性計算を利用し、高い計算コストで高い性能を達成するか、(ii)時空間構造が失われる大域ベクトルとして動画を表現/インデックスする粗粒度アプローチにより、低性能を提供するが、計算コストも低い。
本研究は,我々は精細な教師ネットワークから学ぶ「蒸留・選択(dns)」と呼ばれる知識蒸留フレームワークを提案する。a) 異なる検索性能と計算効率のトレードオフにおける学生ネットワーク,b) テスト時にサンプルを適切な学生に迅速に指示し,高い検索性能と高い計算効率の両方を維持するための選択ネットワーク。
私たちは複数の異なるアーキテクチャを持つ学生をトレーニングし、パフォーマンスと効率のトレードオフ、すなわち、バイナリ表現を使ってインデックスビデオを格納するきめ細かい学生を含む、スピードとストレージ要件に到達します。
重要なことに、提案されたスキームは、大きくてラベルのないデータセットで知識の蒸留を可能にする。
我々は,3つの異なるビデオ検索タスク上の5つの公開データセット上でDnSを評価し,a) 学生がいくつかのケースにおいて最先端のパフォーマンスを達成できること,b) 我々のDnSフレームワークは,検索性能,計算速度,記憶空間のトレードオフに優れたものであることを実証した。
具体的構成では,本手法は教師と類似のmAPを実現するが,20倍高速で,240倍のストレージスペースを必要とする。
収集したデータセットと実装は、https://github.com/mever-team/distill-and-select.comで公開されている。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Efficient Temporal Sentence Grounding in Videos with Multi-Teacher Knowledge Distillation [29.952771954087602]
TSGV(Temporal Sentence Grounding in Videos)は、未トリミングビデオから自然言語クエリによって記述されたイベントタイムスタンプを検出することを目的としている。
本稿では,TSGVモデルにおいて高い性能を維持しながら効率的な計算を実現することの課題について論じる。
論文 参考訳(メタデータ) (2023-08-07T17:07:48Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Learning Binary and Sparse Permutation-Invariant Representations for
Fast and Memory Efficient Whole Slide Image Search [3.2580463372881234]
本稿では, 深層生成モデルとフィッシャーベクトルを用いて, バイナリおよびスパースWSI表現を学習するための新しいフレームワークを提案する。
本稿では、インスタンスベーストレーニングを用いたスパースと二分置換不変WSI表現を学習するための新しい損失関数を提案する。
提案手法は, 検索精度と速度の両面で, ヨッティクセル(最近の病理画像検索エンジン)より優れていた。
論文 参考訳(メタデータ) (2022-08-29T14:56:36Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - AutoDistil: Few-shot Task-agnostic Neural Architecture Search for
Distilling Large Language Models [121.22644352431199]
ニューラルアーキテクチャサーチ (NAS) を用いて、大容量モデルから可変コストで複数の圧縮された学生を自動的に抽出する。
現在の作業では、ウェイトシェアリングを備えた数百万の作業からなる1つのSuperLMをトレーニングしています。
最先端のKDおよびNAS手法に対するGLUEベンチマーク実験は、AutoDistilが先行圧縮技術より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-29T06:13:04Z) - Elastic Architecture Search for Diverse Tasks with Different Resources [87.23061200971912]
本研究では,異なるリソースを持つ多様なタスクを効率的に配置する上で,クラス群に対応するリソース制約や関心のタスクをテスト時に動的に指定する,新たな課題について検討する。
従来のNASアプローチでは、全てのクラスのアーキテクチャを同時に設計することを模索しており、これはいくつかの個別のタスクに最適ではないかもしれない。
本稿では、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T00:54:27Z) - Efficient Model Performance Estimation via Feature Histories [27.008927077173553]
ニューラルネットワーク設計のタスクにおける重要なステップは、モデルの性能を評価することである。
この研究では、トレーニングの初期段階におけるネットワークの機能の進化履歴を使用して、プロキシ分類器を構築します。
本手法は,複数の探索アルゴリズムと組み合わせ,より幅広いタスクに対するより良い解を見つけることができることを示す。
論文 参考訳(メタデータ) (2021-03-07T20:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。