論文の概要: TrickVOS: A Bag of Tricks for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2306.15377v1
- Date: Tue, 27 Jun 2023 10:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 13:41:05.125362
- Title: TrickVOS: A Bag of Tricks for Video Object Segmentation
- Title(参考訳): TrickVOS:ビデオオブジェクトセグメンテーションのためのトリックの袋
- Authors: Evangelos Skartados, Konstantinos Georgiadis, Mehmet Kerim Yucel,
Koskinas Ioannis, Armando Domi, Anastasios Drosou, Bruno Manganelli, Albert
Sa`a-Garriga
- Abstract要約: 半教師付きビデオオブジェクトセグメンテーション(SVOS)において、時空間メモリ(STM)ネットワーク手法が優勢である。
TrickVOSは,構造を意識したハイブリッド損失 (i) 単純なデコーダ事前学習方式 (iii) モデル予測に空間的制約を課す安価なトラッカーである。
TrickVOSは、DAVISおよびYouTubeベンチマークの最先端メソッドに対する競合的な結果を達成すると同時に、モバイルデバイス上でリアルタイムに実行できるSTMベースのSVOSメソッドの1つである。
- 参考スコア(独自算出の注目度): 3.32557278166758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Space-time memory (STM) network methods have been dominant in semi-supervised
video object segmentation (SVOS) due to their remarkable performance. In this
work, we identify three key aspects where we can improve such methods; i)
supervisory signal, ii) pretraining and iii) spatial awareness. We then propose
TrickVOS; a generic, method-agnostic bag of tricks addressing each aspect with
i) a structure-aware hybrid loss, ii) a simple decoder pretraining regime and
iii) a cheap tracker that imposes spatial constraints in model predictions.
Finally, we propose a lightweight network and show that when trained with
TrickVOS, it achieves competitive results to state-of-the-art methods on DAVIS
and YouTube benchmarks, while being one of the first STM-based SVOS methods
that can run in real-time on a mobile device.
- Abstract(参考訳): 空間時間メモリ(STM)ネットワーク手法は,その性能上,半教師付きビデオオブジェクトセグメンテーション(SVOS)において支配的であった。
本研究では,このような手法を改良できる3つの重要な側面を同定する。
一 監督信号
二 事前訓練及び訓練
iii) 空間意識。
次に、各側面に対処できる汎用的なメソッドに依存しないトリックバッグであるtrickvosを提案する。
一 構造対応ハイブリッド損失
二 簡易復号機事前訓練体制及び
三 モデル予測に空間的制約を課す安価な追跡装置
最後に、軽量なネットワークを提案し、TrickVOSでトレーニングすると、DAVISとYouTubeベンチマークの最先端メソッドと競合する結果が得られ、モバイルデバイス上でリアルタイムに実行できるSTMベースのSVOSメソッドの1つであることを示す。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - SpVOS: Efficient Video Object Segmentation with Triple Sparse
Convolution [18.332130780309797]
本研究は,ビデオオブジェクト分割フレームワーク全体の計算コストを削減するために,新しい3重スパース畳み込みを開発した。
DAVISとYoutube-VOSを含む2つの主流VOSデータセットで実験が行われる。
その結果,提案するSpVOSは,他の最先端スパース手法よりも優れた性能を示し,同等の性能を維持していることがわかった。
論文 参考訳(メタデータ) (2023-10-23T17:21:33Z) - S4C: Self-Supervised Semantic Scene Completion with Neural Fields [54.35865716337547]
3Dセマンティックシーン理解はコンピュータビジョンにおける根本的な課題である。
SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。
本研究は,S4Cと呼ばれる3次元地上真理データに依存しないSSCに対して,初めての自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-11T14:19:05Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Scalable Video Object Segmentation with Simplified Framework [21.408446548059956]
本稿では,機能抽出とマッチングを行うスケーラブルなVOS(SimVOS)フレームワークを提案する。
SimVOSは拡張性のあるViTバックボーンを使用して、クエリと参照の同時抽出とマッチングを行う。
実験により,我々のSimVOSは,人気ビデオオブジェクトセグメンテーションベンチマークの最先端結果を得た。
論文 参考訳(メタデータ) (2023-08-19T04:30:48Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - Make One-Shot Video Object Segmentation Efficient Again [7.7415390727490445]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオの各フレームにオブジェクトの集合をセグメンテーションするタスクを記述する。
e-OSVOSはオブジェクト検出タスクを分離し、Mask R-CNNの修正版を適用してローカルセグメンテーションマスクのみを予測する。
e-OSVOSは、DAVIS 2016、DAVIS 2017、YouTube-VOSの1ショットの微調整方法に関する最先端の結果を提供する。
論文 参考訳(メタデータ) (2020-12-03T12:21:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。