論文の概要: Treating Motion as Option with Output Selection for Unsupervised Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2309.14786v2
- Date: Fri, 25 Apr 2025 01:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.541132
- Title: Treating Motion as Option with Output Selection for Unsupervised Video Object Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションにおける出力選択による動作のオプション化
- Authors: Suhwan Cho, Minhyeok Lee, Jungho Lee, MyeongAh Cho, Seungwook Park, Jaeyeob Kim, Hyunsung Jang, Sangyoun Lee,
- Abstract要約: 本稿では,移動キューを必要ではなくオプションコンポーネントとして扱う,新たなモーション・アズ・オプション・ネットワークを提案する。
トレーニング中、光学フローマップの代わりにRGB画像をランダムにモーションエンコーダに入力し、ネットワークのモーションキューへの依存を暗黙的に低減する。
この設計により、モーションエンコーダはRGB画像と光フローマップの両方を処理可能であることを保証する。
- 参考スコア(独自算出の注目度): 16.37741705985433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object segmentation aims to detect the most salient object in a video without any external guidance regarding the object. Salient objects often exhibit distinctive movements compared to the background, and recent methods leverage this by combining motion cues from optical flow maps with appearance cues from RGB images. However, because optical flow maps are often closely correlated with segmentation masks, networks can become overly dependent on motion cues during training, leading to vulnerability when faced with confusing motion cues and resulting in unstable predictions. To address this challenge, we propose a novel motion-as-option network that treats motion cues as an optional component rather than a necessity. During training, we randomly input RGB images into the motion encoder instead of optical flow maps, which implicitly reduces the network's reliance on motion cues. This design ensures that the motion encoder is capable of processing both RGB images and optical flow maps, leading to two distinct predictions depending on the type of input provided. To make the most of this flexibility, we introduce an adaptive output selection algorithm that determines the optimal prediction during testing.
- Abstract(参考訳): 教師なしビデオオブジェクトセグメンテーションは、オブジェクトに関する外部ガイダンスを使わずに、ビデオ内の最も健全なオブジェクトを検出することを目的としている。
近年の手法では、光学フローマップからの動作キューとRGB画像からの外観キューを組み合わせることで、背景に比べて顕著な動きを呈することが多い。
しかし、光学フローマップはしばしばセグメンテーションマスクと密接に関連しているため、ネットワークはトレーニング中に動きキューに過度に依存し、混乱した動きキューに直面し、不安定な予測をもたらす。
この課題に対処するために、動作キューを必要ではなくオプションコンポーネントとして扱う新しいモーション・アズ・オプション・ネットワークを提案する。
トレーニング中、光学フローマップの代わりにRGB画像をランダムにモーションエンコーダに入力し、ネットワークのモーションキューへの依存を暗黙的に低減する。
この設計により、モーションエンコーダはRGB画像と光フローマップの両方を処理可能であることを保証する。
この柔軟性を最大限に活用するために,テスト中の最適予測を決定する適応出力選択アルゴリズムを導入する。
関連論文リスト
- Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - Investigation of Frame Differences as Motion Cues for Video Object Segmentation [0.29998889086656577]
動きキュー抽出における光フローの代替として,フレーム差を用いた手法を提案する。
本研究は,限られた計算資源を持つ場合の移動手段としてフレーム差を利用した場合の有用性を示唆するものである。
論文 参考訳(メタデータ) (2025-03-12T07:42:15Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation [68.56443382421878]
ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-18T10:19:29Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Treating Motion as Option to Reduce Motion Dependency in Unsupervised
Video Object Segmentation [5.231219025536678]
教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。
最先端のほとんどの手法では、光学フローマップから得られる動きの手がかりと外観の手がかりを活用して、背景に比べて顕著な物体が典型的に特徴的な動きを持つという特性を利用する。
論文 参考訳(メタデータ) (2022-09-04T18:05:52Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z) - Motion Deblurring using Spatiotemporal Phase Aperture Coding [34.76550131783525]
本稿では, 動きの鈍化に対する計算画像化手法を提案する。
運動の軌跡を中間光学画像に符号化する。
カラーキューは、ブラインドデブロアリングプロセスの事前情報として機能する。
論文 参考訳(メタデータ) (2020-02-18T10:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。