論文の概要: MobileVOS: Real-Time Video Object Segmentation Contrastive Learning
meets Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2303.07815v1
- Date: Tue, 14 Mar 2023 11:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:21:08.724884
- Title: MobileVOS: Real-Time Video Object Segmentation Contrastive Learning
meets Knowledge Distillation
- Title(参考訳): MobileVOS: リアルタイムビデオオブジェクトセグメンテーションコントラスト学習が知識蒸留に適合
- Authors: Roy Miles, Mehmet Kerim Yucel, Bruno Manganelli, Albert Saa-Garriga
- Abstract要約: 本稿では,携帯電話などの資源制約のあるデバイスにおける半教師付きビデオオブジェクトセグメンテーションの問題に取り組む。
有限メモリの小さな時空間メモリネットワークは,計算コストのごく一部で,最先端技術と競合する結果が得られることを示した。
- 参考スコア(独自算出の注目度): 4.511561231517167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the problem of semi-supervised video object segmentation
on resource-constrained devices, such as mobile phones. We formulate this
problem as a distillation task, whereby we demonstrate that small
space-time-memory networks with finite memory can achieve competitive results
with state of the art, but at a fraction of the computational cost (32
milliseconds per frame on a Samsung Galaxy S22). Specifically, we provide a
theoretically grounded framework that unifies knowledge distillation with
supervised contrastive representation learning. These models are able to
jointly benefit from both pixel-wise contrastive learning and distillation from
a pre-trained teacher. We validate this loss by achieving competitive J&F to
state of the art on both the standard DAVIS and YouTube benchmarks, despite
running up to 5x faster, and with 32x fewer parameters.
- Abstract(参考訳): 本稿では,携帯電話などの資源制約のあるデバイスにおける半教師付きビデオオブジェクトセグメンテーションの問題に取り組む。
我々は,この問題を蒸留作業として定式化し,有限メモリの空間記憶ネットワークが,Samsung Galaxy S22上での計算コスト(32ミリ秒)のごく一部で,技術状況と競合する結果が得られることを示した。
具体的には,教師付きコントラスト表現学習で知識蒸留を統一する理論的根拠付き枠組みを提案する。
これらのモデルは、事前訓練された教師からの画素単位のコントラスト学習と蒸留の両方の恩恵を受けることができる。
最大で5倍速く、パラメータが32倍も少ないのに、標準的なDAVISとYouTubeのベンチマークの両方で、競争力のあるJ&Fを達成することで、この損失を検証する。
関連論文リスト
- Exploring Content Relationships for Distilling Efficient GANs [69.86835014810714]
本稿では,過剰パラメータ生成逆数ネットワーク(GAN)に対処するコンテンツ関係蒸留(CRD)を提案する。
従来のインスタンスレベルの蒸留とは対照的に,教師出力の内容を細粒度にスライスすることで,新しいGAN圧縮指向の知識を設計する。
提案した内容レベルの蒸留をベースとして,オンライン教師識別器を配置し,教師生成器と共同訓練した場合の更新を継続し,生徒生成器と共同訓練した場合の凍結を継続し,より良い対人訓練を行う。
論文 参考訳(メタデータ) (2022-12-21T15:38:12Z) - MAR: Masked Autoencoders for Efficient Action Recognition [46.10824456139004]
視覚変換器(ViT)は、限られた視覚コンテンツのみを与えられたコンテキスト間で補完することができる。
Marは、パッチのパーセンテージを破棄し、ビデオの一部でのみ操作することで、冗長性を低減します。
Marは相変わらず、既存のViTモデルを上回っている。
論文 参考訳(メタデータ) (2022-07-24T04:27:36Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Real-Time Video Inference on Edge Devices via Adaptive Model Streaming [9.101956442584251]
携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。
本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。