論文の概要: Learning to Better Segment Objects from Unseen Classes with Unlabeled
Videos
- arxiv url: http://arxiv.org/abs/2104.12276v1
- Date: Sun, 25 Apr 2021 22:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 03:48:33.925613
- Title: Learning to Better Segment Objects from Unseen Classes with Unlabeled
Videos
- Title(参考訳): ラベルなしビデオによる未確認授業のセグメンテーションオブジェクトの学習
- Authors: Yuming Du, Yang Xiao, Vincent Lepetit
- Abstract要約: 非ラベルのビデオシーケンスを使用して、目に見えないクラスのオブジェクトのトレーニングデータを自動的に生成します。
このようなトレーニングセットを自動生成するように特別に設計されたベイズ法を導入する。
提案手法は,unseenクラスのセグメンテーションオブジェクトの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 38.23575745107852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to localize and segment objects from unseen classes would open
the door to new applications, such as autonomous object learning in active
vision. Nonetheless, improving the performance on unseen classes requires
additional training data, while manually annotating the objects of the unseen
classes can be labor-extensive and expensive. In this paper, we explore the use
of unlabeled video sequences to automatically generate training data for
objects of unseen classes. It is in principle possible to apply existing video
segmentation methods to unlabeled videos and automatically obtain object masks,
which can then be used as a training set even for classes with no manual labels
available. However, our experiments show that these methods do not perform well
enough for this purpose. We therefore introduce a Bayesian method that is
specifically designed to automatically create such a training set: Our method
starts from a set of object proposals and relies on (non-realistic)
analysis-by-synthesis to select the correct ones by performing an efficient
optimization over all the frames simultaneously. Through extensive experiments,
we show that our method can generate a high-quality training set which
significantly boosts the performance of segmenting objects of unseen classes.
We thus believe that our method could open the door for open-world instance
segmentation using abundant Internet videos.
- Abstract(参考訳): 見えないクラスからオブジェクトをローカライズし、セグメンテーションする能力は、アクティブビジョンにおける自律的なオブジェクト学習のような新しいアプリケーションへの扉を開くだろう。
それでも、unseenクラスのパフォーマンス向上には、追加のトレーニングデータが必要だが、unseenクラスのオブジェクトに手動でアノテートすることは、労力とコストがかかる可能性がある。
本稿では,未確認クラスのオブジェクトに対するトレーニングデータを自動的に生成するためのラベルなしビデオシーケンスの利用について検討する。
原則として、既存のビデオセグメンテーション手法をラベルなしのビデオに適用し、オブジェクトマスクを自動的に取得し、手動ラベルのないクラスでもトレーニングセットとして使用することができる。
しかし,本実験は,これらの手法が十分な性能を発揮できないことを示す。
そこで我々は,そのようなトレーニングセットを自動生成するように特別に設計されたベイズ法を導入する: 提案手法は,対象提案の集合から始まり,すべてのフレームを同時に効率的に最適化することにより,(非現実的な)解析に頼って正しいものを選択する。
提案手法は,広範囲にわたる実験により高品質なトレーニングセットを生成でき,セグメンテーションオブジェクトの性能が著しく向上することを示す。
そこで我々は,豊富なインターネットビデオを用いたオープンワールドインスタンスセグメンテーションの扉を開くことができると考えている。
関連論文リスト
- AICL: Action In-Context Learning for Video Diffusion Model [124.39948693332552]
本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。
大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2024-03-18T07:41:19Z) - Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - Active Learning for Video Classification with Frame Level Queries [13.135234328352885]
ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
論文 参考訳(メタデータ) (2023-07-10T15:47:13Z) - Less than Few: Self-Shot Video Instance Segmentation [50.637278655763616]
質問に対して適切なサポートビデオの検索を自動で行うことを提案する。
私たちは、ビデオインスタンスのセグメンテーションを、セルフショット(と数ショット)の設定で初めて取り組んだ。
我々は,新しいトランスモデルを用いた強力なベースライン性能を提供する。
論文 参考訳(メタデータ) (2022-04-19T13:14:43Z) - FreeSOLO: Learning to Segment Objects without Annotations [191.82134817449528]
我々は,単純なインスタンスセグメンテーションメソッドSOLO上に構築された自己教師型インスタンスセグメンテーションフレームワークであるFreeSOLOを紹介する。
また,本手法では,複雑なシーンからオブジェクトを教師なしで検出する,新たなローカライズ対応事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T16:31:44Z) - Few-Shot Action Localization without Knowing Boundaries [9.959844922120523]
対象のアクションの1/2のトリミング例がテスト時にのみ利用可能である場合,未トリミングビデオ中のアクションのローカライズを学習可能であることを示す。
ビデオのペア間の微細な類似パターンをモデル化した時間的類似度行列(TSM)を推定するネットワークを提案する。
提案手法は,最先端の完全教師付き,少数ショットの学習手法に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-06-08T07:32:43Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。