Fugu-MT 論文翻訳(概要): MobileVOS: Real-Time Video Object Segmentation Contrastive Learning meets Knowledge Distillation

論文の概要: MobileVOS: Real-Time Video Object Segmentation Contrastive Learning meets Knowledge Distillation

arxiv url: http://arxiv.org/abs/2303.07815v1
Date: Tue, 14 Mar 2023 11:46:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-15 15:21:08.724884
Title: MobileVOS: Real-Time Video Object Segmentation Contrastive Learning meets Knowledge Distillation
Title（参考訳）: MobileVOS: リアルタイムビデオオブジェクトセグメンテーションコントラスト学習が知識蒸留に適合
Authors: Roy Miles, Mehmet Kerim Yucel, Bruno Manganelli, Albert Saa-Garriga
Abstract要約: 本稿では,携帯電話などの資源制約のあるデバイスにおける半教師付きビデオオブジェクトセグメンテーションの問題に取り組む。有限メモリの小さな時空間メモリネットワークは,計算コストのごく一部で,最先端技術と競合する結果が得られることを示した。
参考スコア（独自算出の注目度）: 4.511561231517167
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper tackles the problem of semi-supervised video object segmentation on resource-constrained devices, such as mobile phones. We formulate this problem as a distillation task, whereby we demonstrate that small space-time-memory networks with finite memory can achieve competitive results with state of the art, but at a fraction of the computational cost (32 milliseconds per frame on a Samsung Galaxy S22). Specifically, we provide a theoretically grounded framework that unifies knowledge distillation with supervised contrastive representation learning. These models are able to jointly benefit from both pixel-wise contrastive learning and distillation from a pre-trained teacher. We validate this loss by achieving competitive J&F to state of the art on both the standard DAVIS and YouTube benchmarks, despite running up to 5x faster, and with 32x fewer parameters.
Abstract（参考訳）: 本稿では,携帯電話などの資源制約のあるデバイスにおける半教師付きビデオオブジェクトセグメンテーションの問題に取り組む。我々は,この問題を蒸留作業として定式化し,有限メモリの空間記憶ネットワークが,Samsung Galaxy S22上での計算コスト(32ミリ秒)のごく一部で,技術状況と競合する結果が得られることを示した。具体的には,教師付きコントラスト表現学習で知識蒸留を統一する理論的根拠付き枠組みを提案する。これらのモデルは、事前訓練された教師からの画素単位のコントラスト学習と蒸留の両方の恩恵を受けることができる。最大で5倍速く、パラメータが32倍も少ないのに、標準的なDAVISとYouTubeのベンチマークの両方で、競争力のあるJ&Fを達成することで、この損失を検証する。

関連論文リスト

SlotMatch: Distilling Temporally Consistent Object-Centric Representations for Unsupervised Video Segmentation [35.63818543844962]
本稿では,オブジェクト中心の表現を軽量な学生に効果的に伝達する知識蒸留フレームワークを提案する。提案したフレームワークは、SlotMatchと呼ばれ、コサインの類似性を通じて、対応する教師と生徒のスロットを調整する。 2つのデータセットで実験を行い、最先端の教師モデルであるSlotContrastと蒸留した学生を比較した。
論文参考訳（メタデータ） (2025-08-05T12:58:09Z)
Towards Real-Time Open-Vocabulary Video Instance Segmentation [88.04508795121681]
オープン語彙ビデオインスタンス分割(OV-VIS)をリアルタイムに実行するための新しい手法を提案する。 TROY-VISは2つの大規模OV-VISベンチマークで精度と速度の最良のトレードオフを達成する。これらの結果は,モバイルロボティクスや拡張現実といった動的環境におけるTROY-VISのリアルタイム応用の可能性を示している。
論文参考訳（メタデータ） (2024-12-05T18:53:13Z)
3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文参考訳（メタデータ） (2024-06-06T00:56:25Z)
ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning [29.620990627792906]
本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。
論文参考訳（メタデータ） (2024-05-24T02:29:03Z)
Augmentation-Free Dense Contrastive Knowledge Distillation for Efficient Semantic Segmentation [16.957139277317005]
Af-DCD(Augmentation-free Dense Contrastive Knowledge Distillation)は、新しいコントラスト蒸留学習パラダイムである。 Af-DCDはセマンティックセグメンテーションのためのコンパクトで正確なディープニューラルネットワークを訓練する。
論文参考訳（メタデータ） (2023-12-07T09:37:28Z)
Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文参考訳（メタデータ） (2023-06-21T06:18:05Z)
Just a Glimpse: Rethinking Temporal Information for Video Continual Learning [58.7097258722291]
個別フレームと単一フレームに基づく効果的なビデオ連続学習のための新しい再生機構を提案する。極端な記憶の制約の下では、ビデオの多様性は時間的情報よりも重要な役割を果たす。提案手法は最先端性能を実現し,従来の最先端性能を最大21.49%向上させる。
論文参考訳（メタデータ） (2023-05-28T19:14:25Z)
Exploring Content Relationships for Distilling Efficient GANs [69.86835014810714]
本稿では,過剰パラメータ生成逆数ネットワーク(GAN)に対処するコンテンツ関係蒸留(CRD)を提案する。従来のインスタンスレベルの蒸留とは対照的に,教師出力の内容を細粒度にスライスすることで,新しいGAN圧縮指向の知識を設計する。提案した内容レベルの蒸留をベースとして,オンライン教師識別器を配置し,教師生成器と共同訓練した場合の更新を継続し,生徒生成器と共同訓練した場合の凍結を継続し,より良い対人訓練を行う。
論文参考訳（メタデータ） (2022-12-21T15:38:12Z)
NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。 NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文参考訳（メタデータ） (2022-07-21T09:41:22Z)
Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文参考訳（メタデータ） (2020-08-09T19:58:45Z)
Real-Time Video Inference on Edge Devices via Adaptive Model Streaming [9.101956442584251]
携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
論文参考訳（メタデータ） (2020-06-11T17:25:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。