論文の概要: Curriculum Learning for Recurrent Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2008.06698v1
- Date: Sat, 15 Aug 2020 10:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 21:01:19.965131
- Title: Curriculum Learning for Recurrent Video Object Segmentation
- Title(参考訳): リカレントビデオオブジェクトセグメンテーションのためのカリキュラム学習
- Authors: Maria Gonzalez-i-Calabuig, Carles Ventura and Xavier Gir\'o-i-Nieto
- Abstract要約: 本研究は,繰り返しアーキテクチャの性能を著しく向上させるため,異なるスケジュールサンプリングとフレームスキップのバリエーションについて検討する。
KITTI-MOTS チャレンジのカークラスにおける結果から, 意外なことに, 逆スケジュールサンプリングの方が, 従来のフォワードよりも優れた選択肢であることが示唆された。
- 参考スコア(独自算出の注目度): 2.3376061255029064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video object segmentation can be understood as a sequence-to-sequence task
that can benefit from the curriculum learning strategies for better and faster
training of deep neural networks. This work explores different schedule
sampling and frame skipping variations to significantly improve the performance
of a recurrent architecture. Our results on the car class of the KITTI-MOTS
challenge indicate that, surprisingly, an inverse schedule sampling is a better
option than a classic forward one. Also, that a progressive skipping of frames
during training is beneficial, but only when training with the ground truth
masks instead of the predicted ones. Source code and trained models are
available at http://imatge-upc.github.io/rvos-mots/.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーションは、深層ニューラルネットワークのトレーニングをより高速にするために、カリキュラム学習戦略の恩恵を受けるシーケンシャル・ツー・シーケンスタスクとして理解することができる。
本研究では、異なるスケジュールサンプリングとフレームスキップのバリエーションを調査し、繰り返しアーキテクチャの性能を大幅に改善する。
KITTI-MOTS チャレンジのカークラスで得られた結果は、意外なことに、逆スケジュールサンプリングが古典的な前方モデルよりも良い選択肢であることを示している。
また、トレーニング中のフレームのプログレッシブスキップは有益であるが、予測されたフレームではなく、地上の真相マスクでトレーニングする場合に限られる。
ソースコードとトレーニングされたモデルはhttp://imatge-upc.github.io/rvos-mots/で入手できる。
関連論文リスト
- Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Class-incremental Learning using a Sequence of Partial Implicitly
Regularized Classifiers [0.0]
クラス増分学習では、トレーニングデータ全体にアクセスすることなく、複数のクラスを順次学習することが目的である。
CIFAR100データセットの実験では、提案手法がSOTAの性能を大きなマージンで向上させることが示された。
論文 参考訳(メタデータ) (2021-04-04T10:02:45Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。