Fugu-MT 論文翻訳(概要): Learning to Track Instances without Video Annotations

論文の概要: Learning to Track Instances without Video Annotations

arxiv url: http://arxiv.org/abs/2104.00287v1
Date: Thu, 1 Apr 2021 06:47:41 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-02 13:40:37.284868
Title: Learning to Track Instances without Video Annotations
Title（参考訳）: ビデオアノテーションなしでインスタンスを追跡する学習
Authors: Yang Fu, Sifei Liu, Umar Iqbal, Shalini De Mello, Humphrey Shi, Jan Kautz
Abstract要約: 本稿では,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。画像のみを訓練しても,学習した特徴表現は出現の変動にロバストであることが判明した。さらに、このモジュールを単一ステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合します。
参考スコア（独自算出の注目度）: 85.9865889886669
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Tracking segmentation masks of multiple instances has been intensively studied, but still faces two fundamental challenges: 1) the requirement of large-scale, frame-wise annotation, and 2) the complexity of two-stage approaches. To resolve these challenges, we introduce a novel semi-supervised framework by learning instance tracking networks with only a labeled image dataset and unlabeled video sequences. With an instance contrastive objective, we learn an embedding to discriminate each instance from the others. We show that even when only trained with images, the learned feature representation is robust to instance appearance variations, and is thus able to track objects steadily across frames. We further enhance the tracking capability of the embedding by learning correspondence from unlabeled videos in a self-supervised manner. In addition, we integrate this module into single-stage instance segmentation and pose estimation frameworks, which significantly reduce the computational complexity of tracking compared to two-stage networks. We conduct experiments on the YouTube-VIS and PoseTrack datasets. Without any video annotation efforts, our proposed method can achieve comparable or even better performance than most fully-supervised methods.
Abstract（参考訳）: 複数のインスタンスのセグメンテーションマスクの追跡は研究されているが,1)大規模かつフレームワイドなアノテーションの要求,2)2段階のアプローチの複雑さという2つの根本的な課題に直面している。これらの課題を解決するために,ラベル付き画像データセットとラベルなしビデオシーケンスのみを用いたインスタンス追跡ネットワークを学習する,新しい半教師付きフレームワークを提案する。インスタンスの対照的な目的によって、各インスタンスを他のインスタンスと区別する埋め込みを学びます。画像のみをトレーニングしても,学習した特徴表現はインスタンスの出現変動に頑健であり,フレーム間でオブジェクトを着実に追跡できることを示す。我々は、ラベルなしビデオからの対応を自己監督的に学習することで、埋め込みのトラッキング能力をさらに強化する。さらに、このモジュールをシングルステージのインスタンスセグメンテーションとポーズ推定フレームワークに統合し、2段階のネットワークと比較して追跡の計算の複雑さを大幅に削減した。 YouTube-VIS と PoseTrack のデータセットで実験を行う。ビデオアノテーションを使わずに、提案手法は、多くの完全教師付き手法と同等あるいはそれ以上の性能を達成できる。

関連論文リスト

Segment Concealed Objects with Incomplete Supervision [63.637733655439334]
不完全なスーパービジョン・コンセサイテッド・オブジェクト(ISCOS)は、周囲の環境にシームレスにブレンドするオブジェクトを分割する。このタスクは、不完全な注釈付きトレーニングデータによって提供される限られた監督のため、非常に難しいままである。本稿では,これらの課題に対処するためのISCOSの統一手法について紹介する。
論文参考訳（メタデータ） (2025-06-10T16:25:15Z)
SimLTD: Simple Supervised and Semi-Supervised Long-Tailed Object Detection [4.3512163406552]
本稿では、オブジェクトクラスが自然に長い尾の分布に従うような環境でのオブジェクト検出の課題に焦点を当てる。遠距離検出のための既存の方法は、低ショットのトレーニングインスタンスを拡張するために外部のImageNetラベルに頼っている。我々は,人間のアノテーションの負担を伴わずに容易に収集できる,任意のラベル付き画像を活用する汎用的でスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2024-12-28T06:29:40Z)
Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation [1.3157419797035321]
本稿では,既存情報の利用を最大化する観点から,新しいサンプルインスタンス分割法を提案する。まず、ラベルのないデータを学習して擬似ラベルを生成し、利用可能なサンプルの数を増やすことで、モデルが完全に活用するのに役立つ。第二に、テキストと画像の特徴を統合することにより、より正確な分類結果を得ることができる。
論文参考訳（メタデータ） (2024-10-21T14:44:08Z)
Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-11-17T08:17:49Z)
Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文参考訳（メタデータ） (2022-12-15T02:44:13Z)
Online Deep Clustering with Video Track Consistency [85.8868194550978]
ビデオオブジェクトトラックから視覚的特徴を学習するための教師なしクラスタリングに基づく手法を提案する。教師なしのクラス非依存でノイズの多いトラックジェネレータを利用すれば、コストと正確なトラックアノテーションに依存するよりも精度が向上することを示す。
論文参考訳（メタデータ） (2022-06-07T08:11:00Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)
Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文参考訳（メタデータ） (2021-07-06T05:23:30Z)
Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文参考訳（メタデータ） (2021-06-21T07:40:34Z)
ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文参考訳（メタデータ） (2021-06-04T08:44:50Z)
Train a One-Million-Way Instance Classifier for Unsupervised Visual Representation Learning [45.510042484456854]
本稿では、パラメトリックなインスタンスレベルの計算を用いて、データセット内のすべての画像を識別するプリテキストタスクを備えた、単純な教師なし視覚表現学習法を提案する。全体的なフレームワークは教師付き分類モデルのレプリカであり、セマンティッククラス(犬、鳥、船など)はインスタンスIDに置き換えられる。数千のセマンティックラベルから数百万のインスタンスラベルへの分類タスクのスケールアップは、1)大規模ソフトマックス分類器、2)インスタンスサンプルの頻度の低い訪問による緩やかな収束、3)ノイズの多い大量の負のクラスなど、特定の課題をもたらす。
論文参考訳（メタデータ） (2021-02-09T14:44:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。