論文の概要: Treating Motion as Option with Output Selection for Unsupervised Video
Object Segmentation
- arxiv url: http://arxiv.org/abs/2309.14786v1
- Date: Tue, 26 Sep 2023 09:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-09-27 14:13:18.503376
- Title: Treating Motion as Option with Output Selection for Unsupervised Video
Object Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションにおける出力選択による動作のオプション化
- Authors: Suhwan Cho, Minhyeok Lee, Jungho Lee, MyeongAh Cho, Sangyoun Lee
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)は、オブジェクトに関する外部のガイダンスなしで、ビデオ内の最も健全なオブジェクトを検出することを目的としている。
近年,光学フローマップから抽出した動きキューとRGB画像から抽出した外観キューを協調的に利用する手法が提案されている。
本稿では,動作キューを任意に扱うことで,新たな動作・アズ・オプション・ネットワークを提案する。
- 参考スコア(独自算出の注目度): 17.71871884366252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object segmentation (VOS) is a task that aims to detect
the most salient object in a video without external guidance about the object.
To leverage the property that salient objects usually have distinctive
movements compared to the background, recent methods collaboratively use motion
cues extracted from optical flow maps with appearance cues extracted from RGB
images. However, as optical flow maps are usually very relevant to segmentation
masks, the network is easy to be learned overly dependent on the motion cues
during network training. As a result, such two-stream approaches are vulnerable
to confusing motion cues, making their prediction unstable. To relieve this
issue, we design a novel motion-as-option network by treating motion cues as
optional. During network training, RGB images are randomly provided to the
motion encoder instead of optical flow maps, to implicitly reduce motion
dependency of the network. As the learned motion encoder can deal with both RGB
images and optical flow maps, two different predictions can be generated
depending on which source information is used as motion input. In order to
fully exploit this property, we also propose an adaptive output selection
algorithm to adopt optimal prediction result at test time. Our proposed
approach affords state-of-the-art performance on all public benchmark datasets,
even maintaining real-time inference speed.
- Abstract(参考訳): 教師なしビデオオブジェクトセグメンテーション(英: unsupervised video object segmentation、vos)は、ビデオ内の最も有能なオブジェクトを外部の指示なしに検出することを目的としたタスクである。
近年の手法では,光フローマップから抽出した動きの手がかりと,rgb画像から抽出した外観の手がかりを協調的に利用する手法が提案されている。
しかしながら、光フローマップは通常、セグメンテーションマスクに非常に関係があるため、ネットワークトレーニング中の動きの手がかりに過度に依存して学習することが容易である。
その結果、このような2ストリームのアプローチは、混乱した動きの手がかりに弱いため、予測が不安定になる。
この問題を軽減するために,モーションキューを任意として扱うことで,新たなモーション・アズ・オプションネットワークを設計する。
ネットワークトレーニング中、RGB画像は光フローマップの代わりにモーションエンコーダにランダムに提供され、ネットワークの動作依存性を暗黙的に低減する。
学習したモーションエンコーダは、RGB画像と光フローマップの両方に対応できるため、どのソース情報がモーション入力として使用されるかによって、2つの異なる予測を生成することができる。
また、この特性を完全に活用するために、テスト時に最適な予測結果を採用する適応出力選択アルゴリズムを提案する。
提案手法は,リアルタイムの推論速度を維持しつつ,すべての公開ベンチマークデータセット上での最先端のパフォーマンスを実現する。
関連論文リスト
- Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - Investigation of Frame Differences as Motion Cues for Video Object Segmentation [0.29998889086656577]
動きキュー抽出における光フローの代替として,フレーム差を用いた手法を提案する。
本研究は,限られた計算資源を持つ場合の移動手段としてフレーム差を利用した場合の有用性を示唆するものである。
論文 参考訳(メタデータ) (2025-03-12T07:42:15Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation [68.56443382421878]
ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-18T10:19:29Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Treating Motion as Option to Reduce Motion Dependency in Unsupervised
Video Object Segmentation [5.231219025536678]
教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。
最先端のほとんどの手法では、光学フローマップから得られる動きの手がかりと外観の手がかりを活用して、背景に比べて顕著な物体が典型的に特徴的な動きを持つという特性を利用する。
論文 参考訳(メタデータ) (2022-09-04T18:05:52Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z) - Motion Deblurring using Spatiotemporal Phase Aperture Coding [34.76550131783525]
本稿では, 動きの鈍化に対する計算画像化手法を提案する。
運動の軌跡を中間光学画像に符号化する。
カラーキューは、ブラインドデブロアリングプロセスの事前情報として機能する。
論文 参考訳(メタデータ) (2020-02-18T10:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。