論文の概要: Depth-aware Test-Time Training for Zero-shot Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2403.04258v1
- Date: Thu, 7 Mar 2024 06:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:53:05.805075
- Title: Depth-aware Test-Time Training for Zero-shot Video Object Segmentation
- Title(参考訳): ゼロショットビデオオブジェクトセグメンテーションのための深さ認識テストタイムトレーニング
- Authors: Weihuang Liu, Xi Shen, Haolun Li, Xiuli Bi, Bo Liu, Chi-Man Pun,
Xiaodong Cun
- Abstract要約: テストタイムトレーニング(TTT)戦略を導入し,未確認ビデオへの一般化問題に対処する。
我々の重要な洞察は、TTプロセス中に一貫した深さを予測するためにモデルを強制することである。
提案するビデオTT戦略は,最先端のTT法よりも優れている。
- 参考スコア(独自算出の注目度): 48.2238806766877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot Video Object Segmentation (ZSVOS) aims at segmenting the primary
moving object without any human annotations. Mainstream solutions mainly focus
on learning a single model on large-scale video datasets, which struggle to
generalize to unseen videos. In this work, we introduce a test-time training
(TTT) strategy to address the problem. Our key insight is to enforce the model
to predict consistent depth during the TTT process. In detail, we first train a
single network to perform both segmentation and depth prediction tasks. This
can be effectively learned with our specifically designed depth modulation
layer. Then, for the TTT process, the model is updated by predicting consistent
depth maps for the same frame under different data augmentations. In addition,
we explore different TTT weight updating strategies. Our empirical results
suggest that the momentum-based weight initialization and looping-based
training scheme lead to more stable improvements. Experiments show that the
proposed method achieves clear improvements on ZSVOS. Our proposed video TTT
strategy provides significant superiority over state-of-the-art TTT methods.
Our code is available at: https://nifangbaage.github.io/DATTT.
- Abstract(参考訳): ゼロショットビデオオブジェクトセグメンテーション(zsvos)は、人間のアノテーションを使わずに主要な移動オブジェクトをセグメンテーションすることを目的としている。
メインストリームのソリューションは主に、1つのモデルを大規模ビデオデータセットで学習することに焦点を当てている。
本研究では,この問題に対処するためのテストタイムトレーニング(TTT)戦略を導入する。
我々の重要な洞察は、TTプロセス中に一貫した深さを予測するためにモデルを強制することである。
詳細は、まず1つのネットワークを訓練して、セグメンテーションと深さ予測の両方を実行する。
これは、設計した奥行き変調層で効果的に学習できる。
そして、tttプロセスでは、異なるデータ拡張の下で同一フレームの一貫した深度マップを予測してモデルを更新する。
さらに,TTT重み更新戦略についても検討した。
実験結果から,運動量に基づく初期化とループリングに基づくトレーニングが,より安定した改善をもたらすことが示唆された。
実験の結果,提案手法はZSVOSに明確な改善をもたらすことがわかった。
提案するビデオTT戦略は,最先端のTT法よりも優れている。
コードはhttps://nifangbaage.github.io/dattt.com/。
関連論文リスト
- Test-Time Training on Video Streams [54.07009446207442]
以前の作業では、テスト時にトレーニングされたモデルをさらに改善するための一般的なフレームワークとして、テストタイムトレーニング(TTT)を確立していました。
TTTをストリーミング設定に拡張し、複数のテストインスタンスが時間順に到着します。
オンラインTTTは、現実世界の3つのデータセット上で、4つのタスクで固定モデルベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-07-11T05:17:42Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Curriculum Learning for Recurrent Video Object Segmentation [2.3376061255029064]
本研究は,繰り返しアーキテクチャの性能を著しく向上させるため,異なるスケジュールサンプリングとフレームスキップのバリエーションについて検討する。
KITTI-MOTS チャレンジのカークラスにおける結果から, 意外なことに, 逆スケジュールサンプリングの方が, 従来のフォワードよりも優れた選択肢であることが示唆された。
論文 参考訳(メタデータ) (2020-08-15T10:51:22Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Dense Regression Network for Video Grounding [97.57178850020327]
地上の真理の中のフレームと開始(終了)フレームの間の距離を高密度の監督として利用し、映像のグラウンド化精度を向上させる。
具体的には、各フレームからビデオセグメントの開始(終了)フレームまでの距離を抑えるために、新しい高密度回帰ネットワーク(DRN)を設計する。
また,グラウンドリング結果の局所化品質を明示的に考慮するために,単純だが効果的なIoU回帰ヘッドモジュールを提案する。
論文 参考訳(メタデータ) (2020-04-07T17:15:37Z) - Rethinking Zero-shot Video Classification: End-to-end Training for
Realistic Applications [26.955001807330497]
ゼロショット学習(ZSL)はモデルを一度トレーニングし、トレーニングデータセットにクラスが存在しない新しいタスクに一般化する。
ビデオ分類におけるZSLの最初のエンドツーエンドアルゴリズムを提案する。
トレーニング手順は,最近の映像分類文献の知見に基づいて,学習可能な3D CNNを用いて視覚的特徴を学習する。
論文 参考訳(メタデータ) (2020-03-03T11:09:59Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。