論文の概要: In-N-Out Generative Learning for Dense Unsupervised Video Segmentation
- arxiv url: http://arxiv.org/abs/2203.15312v1
- Date: Tue, 29 Mar 2022 07:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 04:09:02.612334
- Title: In-N-Out Generative Learning for Dense Unsupervised Video Segmentation
- Title(参考訳): 非教師付きビデオセグメンテーションのためのin-N-Out生成学習
- Authors: Xiao Pan, Peike Li, Zongxin Yang, Huiling Zhou, Chang Zhou, Hongxia
Yang, Jingren Zhou, Yi Yang
- Abstract要約: 本稿では,ラベルなしビデオから視覚的対応を学習する,教師なしビデオオブジェクト(VOS)タスクに焦点を当てる。
In-aNd-Out(INO)生成学習を純粋に生成的観点から提案する。
我々のINOは、最先端の手法をかなりのマージンで上回っている。
- 参考スコア(独自算出の注目度): 89.21483504654282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we focus on the unsupervised Video Object Segmentation (VOS)
task which learns visual correspondence from unlabeled videos. Previous methods
are mainly based on the contrastive learning paradigm, which optimize either in
pixel level or image level and show unsatisfactory scalability. Image-level
optimization learns pixel-wise information implicitly therefore is sub-optimal
for such dense prediction task, while pixel-level optimization ignores the
high-level semantic scope for capturing object deformation. To complementarily
learn these two levels of information in an unified framework, we propose the
In-aNd-Out (INO) generative learning from a purely generative perspective,
which captures both high-level and fine-grained semantics by leveraging the
structural superiority of Vision Transformer (ViT) and achieves better
scalability. Specifically, the in-generative learning recovers the corrupted
parts of an image via inferring its fine-grained semantic structure, while the
out-generative learning captures high-level semantics by imagining the global
information of an image given only random fragments. To better discover the
temporal information, we additionally force the inter-frame consistency from
both feature level and affinity matrix level. Extensive experiments on
DAVIS-2017 val and YouTube-VOS 2018 val show that our INO outperforms previous
state-of-the-art methods by significant margins.
- Abstract(参考訳): 本稿では,ラベルのないビデオから視覚的対応を学習する,教師なしビデオオブジェクトセグメンテーション(VOS)タスクに焦点を当てる。
従来の手法は主に、画素レベルまたは画像レベルを最適化し、不満足なスケーラビリティを示す、対照的な学習パラダイムに基づいている。
画像レベルの最適化は暗黙的に画素単位の情報を学習するので、そのような高密度な予測タスクにはサブ最適である。
そこで本研究では,視覚トランスフォーマー (vit) の構造的優位性を活かし,より優れたスケーラビリティを実現することによって,高レベルおよび細粒度のセマンティクスを捉える純粋生成的視点から,これら2つのレベルの情報を相補的に学習する。
具体的には、生成学習はその微細な意味構造を推論して画像の破損部分を復元し、生成学習はランダムな断片のみを与えられた画像の全体情報を想像して高レベルな意味をキャプチャする。
時間的情報を見出すため、機能レベルと親和性マトリックスレベルの両方からフレーム間の一貫性を強制する。
DAVIS-2017 val と YouTube-VOS 2018 val の大規模な実験は、私たちの INO が過去の最先端の手法をかなり上回っていることを示している。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Hierarchical Semantic Contrast for Scene-aware Video Anomaly Detection [14.721615285883423]
本研究では,通常のビデオからシーン認識型VADモデルを学習するための階層的意味コントラスト(HSC)手法を提案する。
この階層的なセマンティックコントラスト戦略は、通常のパターンの多様性に対処し、識別能力を高めるのに役立つ。
論文 参考訳(メタデータ) (2023-03-23T05:53:34Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Maximize the Exploration of Congeneric Semantics for Weakly Supervised
Semantic Segmentation [27.155133686127474]
グラフニューラルネットワーク(P-GNN)を,同一のクラスラベルを含む異なる画像からの自己検出パッチに基づいて構築する。
PASCAL VOC 2012ベンチマークで実験を行い、そのモデルにより最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-10-08T08:59:16Z) - InfoSeg: Unsupervised Semantic Image Segmentation with Mutual
Information Maximization [0.0]
局所的特徴と大域的高レベル特徴の相互情報に基づく教師なし画像表現の新しい手法を提案する。
最初のステップでは、ローカル機能とグローバル機能に基づいて、イメージをセグメント化する。
第2のステップでは,各クラスの局所的特徴と高次特徴との相互関係を最大化する。
論文 参考訳(メタデータ) (2021-10-07T14:01:42Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。