論文の概要: Optical Flow boosts Unsupervised Localization and Segmentation
- arxiv url: http://arxiv.org/abs/2307.13640v1
- Date: Tue, 25 Jul 2023 16:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 16:06:18.830282
- Title: Optical Flow boosts Unsupervised Localization and Segmentation
- Title(参考訳): オプティカルフローは教師なしのローカライゼーションとセグメンテーションを促進する
- Authors: Xinyu Zhang, Abdeslam Boularias
- Abstract要約: ラベルなしビデオにおける光フローを用いた新たな損失項定式化を提案し, 自己教師型VT機能を互いに近づきやすくする。
提案した損失関数を用いて、当初静的画像に基づいて訓練された視覚変換器を微調整する。
- 参考スコア(独自算出の注目度): 22.625511865323183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised localization and segmentation are long-standing robot vision
challenges that describe the critical ability for an autonomous robot to learn
to decompose images into individual objects without labeled data. These tasks
are important because of the limited availability of dense image manual
annotation and the promising vision of adapting to an evolving set of object
categories in lifelong learning. Most recent methods focus on using visual
appearance continuity as object cues by spatially clustering features obtained
from self-supervised vision transformers (ViT). In this work, we leverage
motion cues, inspired by the common fate principle that pixels that share
similar movements tend to belong to the same object. We propose a new loss term
formulation that uses optical flow in unlabeled videos to encourage
self-supervised ViT features to become closer to each other if their
corresponding spatial locations share similar movements, and vice versa. We use
the proposed loss function to finetune vision transformers that were originally
trained on static images. Our fine-tuning procedure outperforms
state-of-the-art techniques for unsupervised semantic segmentation through
linear probing, without the use of any labeled data. This procedure also
demonstrates increased performance over original ViT networks across
unsupervised object localization and semantic segmentation benchmarks.
- Abstract(参考訳): 教師なしのローカライゼーションとセグメンテーションは、ラベル付きデータなしでイメージを個々のオブジェクトに分解することを学ぶ自律ロボットにとって重要な能力を記述する、長年にわたるロボットビジョンの課題である。
これらのタスクは、濃密な画像手動アノテーションの可用性の制限と、生涯学習における進化するオブジェクトカテゴリへの適応という有望なビジョンのために重要である。
近年の手法では、自己監督型視覚変換器(ViT)から得られる空間的クラスタリング機能により、視覚的外観連続性をオブジェクトキューとして利用することに焦点を当てている。
この研究では、同様の動きを共有する画素は同じ物体に属する傾向にあるという共通の運命原理に着想を得て、動きの手がかりを利用する。
そこで本稿では,光学的フローを用いた新たな損失項の定式化を提案し,空間的位置が類似した動きを共有した場合に,自己教師付きVT特徴が互いに近付くように促し,その逆も提案する。
提案する損失関数を用いて、当初静止画像で訓練された視覚トランスフォーマーを微調整する。
提案手法は,ラベル付きデータを用いずに,線形プローブによる教師なし意味セグメンテーションのための最先端技術を上回る。
この手順は、教師なしオブジェクトローカライゼーションとセマンティクスセグメンテーションベンチマークによって、元のvitネットワークよりも高いパフォーマンスを示す。
関連論文リスト
- Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and
Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。
複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-22T07:27:09Z) - A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文 参考訳(メタデータ) (2023-04-07T13:52:47Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Unsupervised Segmentation in Real-World Images via Spelke Object
Inference [44.79376336842088]
興奮抑制セグメンション抽出ネットワーク(EISEN)は、光学フロー推定から学習し、静的シーンのペア親和性グラフを抽出する。
EISENは、合成および実世界のロボット画像データセットに挑戦する上で、自己教師付きセグメンテーションのための技術の現状を大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-05-17T17:39:24Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos [59.12750806239545]
動画は移動成分によって同じシーンを異なる視点で見ることができ、適切な領域分割と領域フローは相互のビュー合成を可能にする。
モデルでは,1枚の画像に対して特徴に基づく領域分割を出力する出現経路と,1枚の画像に対して動作特徴を出力する動き経路の2つの経路から開始する。
セグメントフローに基づく視線合成誤差を最小限に抑えるためにモデルを訓練することにより、我々の外観経路と運動経路は、それぞれ低レベルのエッジや光フローから構築することなく、領域のセグメンテーションとフロー推定を自動的に学習する。
論文 参考訳(メタデータ) (2021-11-11T18:59:11Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。