論文の概要: Treating Motion as Option with Output Selection for Unsupervised Video
Object Segmentation
- arxiv url: http://arxiv.org/abs/2309.14786v1
- Date: Tue, 26 Sep 2023 09:34:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 14:13:18.503376
- Title: Treating Motion as Option with Output Selection for Unsupervised Video
Object Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションにおける出力選択による動作のオプション化
- Authors: Suhwan Cho, Minhyeok Lee, Jungho Lee, MyeongAh Cho, Sangyoun Lee
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)は、オブジェクトに関する外部のガイダンスなしで、ビデオ内の最も健全なオブジェクトを検出することを目的としている。
近年,光学フローマップから抽出した動きキューとRGB画像から抽出した外観キューを協調的に利用する手法が提案されている。
本稿では,動作キューを任意に扱うことで,新たな動作・アズ・オプション・ネットワークを提案する。
- 参考スコア(独自算出の注目度): 17.71871884366252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object segmentation (VOS) is a task that aims to detect
the most salient object in a video without external guidance about the object.
To leverage the property that salient objects usually have distinctive
movements compared to the background, recent methods collaboratively use motion
cues extracted from optical flow maps with appearance cues extracted from RGB
images. However, as optical flow maps are usually very relevant to segmentation
masks, the network is easy to be learned overly dependent on the motion cues
during network training. As a result, such two-stream approaches are vulnerable
to confusing motion cues, making their prediction unstable. To relieve this
issue, we design a novel motion-as-option network by treating motion cues as
optional. During network training, RGB images are randomly provided to the
motion encoder instead of optical flow maps, to implicitly reduce motion
dependency of the network. As the learned motion encoder can deal with both RGB
images and optical flow maps, two different predictions can be generated
depending on which source information is used as motion input. In order to
fully exploit this property, we also propose an adaptive output selection
algorithm to adopt optimal prediction result at test time. Our proposed
approach affords state-of-the-art performance on all public benchmark datasets,
even maintaining real-time inference speed.
- Abstract(参考訳): 教師なしビデオオブジェクトセグメンテーション(英: unsupervised video object segmentation、vos)は、ビデオ内の最も有能なオブジェクトを外部の指示なしに検出することを目的としたタスクである。
近年の手法では,光フローマップから抽出した動きの手がかりと,rgb画像から抽出した外観の手がかりを協調的に利用する手法が提案されている。
しかしながら、光フローマップは通常、セグメンテーションマスクに非常に関係があるため、ネットワークトレーニング中の動きの手がかりに過度に依存して学習することが容易である。
その結果、このような2ストリームのアプローチは、混乱した動きの手がかりに弱いため、予測が不安定になる。
この問題を軽減するために,モーションキューを任意として扱うことで,新たなモーション・アズ・オプションネットワークを設計する。
ネットワークトレーニング中、RGB画像は光フローマップの代わりにモーションエンコーダにランダムに提供され、ネットワークの動作依存性を暗黙的に低減する。
学習したモーションエンコーダは、RGB画像と光フローマップの両方に対応できるため、どのソース情報がモーション入力として使用されるかによって、2つの異なる予測を生成することができる。
また、この特性を完全に活用するために、テスト時に最適な予測結果を採用する適応出力選択アルゴリズムを提案する。
提案手法は,リアルタイムの推論速度を維持しつつ,すべての公開ベンチマークデータセット上での最先端のパフォーマンスを実現する。
関連論文リスト
- Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation [68.56443382421878]
ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-18T10:19:29Z) - Treating Motion as Option to Reduce Motion Dependency in Unsupervised
Video Object Segmentation [5.231219025536678]
教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。
最先端のほとんどの手法では、光学フローマップから得られる動きの手がかりと外観の手がかりを活用して、背景に比べて顕著な物体が典型的に特徴的な動きを持つという特性を利用する。
論文 参考訳(メタデータ) (2022-09-04T18:05:52Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。