論文の概要: Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2303.04376v2
- Date: Wed, 21 Feb 2024 06:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:31:45.969047
- Title: Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation
- Title(参考訳): Tsanet: 教師なしビデオオブジェクトセグメンテーションのための時間とスケールアライメント
- Authors: Seunghoon Lee, Suhwan Cho, Dogyoon Lee, Minhyeok Lee, Sangyoun Lee
- Abstract要約: Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
- 参考スコア(独自算出の注目度): 21.19216164433897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Video Object Segmentation (UVOS) refers to the challenging task
of segmenting the prominent object in videos without manual guidance. In recent
works, two approaches for UVOS have been discussed that can be divided into:
appearance and appearance-motion-based methods, which have limitations
respectively. Appearance-based methods do not consider the motion of the target
object due to exploiting the correlation information between randomly paired
frames. Appearance-motion-based methods have the limitation that the dependency
on optical flow is dominant due to fusing the appearance with motion. In this
paper, we propose a novel framework for UVOS that can address the
aforementioned limitations of the two approaches in terms of both time and
scale. Temporal Alignment Fusion aligns the saliency information of adjacent
frames with the target frame to leverage the information of adjacent frames.
Scale Alignment Decoder predicts the target object mask by aggregating
multi-scale feature maps via continuous mapping with implicit neural
representation. We present experimental results on public benchmark datasets,
DAVIS 2016 and FBMS, which demonstrate the effectiveness of our method.
Furthermore, we outperform the state-of-the-art methods on DAVIS 2016.
- Abstract(参考訳): Unsupervised Video Object Segmentation (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
近年,UVOSに対する2つのアプローチが議論されており,それぞれに制限がある外見と外見に基づく方法の2つに分けることができる。
ランダムにペアリングされたフレーム間の相関情報を利用するため、外観に基づく手法は対象物体の動きを考慮しない。
出現運動に基づく手法は, 運動の出現を緩和するため, 光流依存性が支配的であるという限界がある。
本稿では,上記の2つのアプローチの制約に,時間とスケールの両面から対処できるUVOSの新しいフレームワークを提案する。
時間アライメントフュージョンは、隣接するフレームのサリエンシ情報を目標フレームと整列させ、隣接するフレームの情報を活用する。
スケールアライメントデコーダは、暗黙的ニューラルネットワーク表現による連続マッピングを通じて、マルチスケール特徴マップを集約することにより、ターゲットオブジェクトマスクを予測する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
DAVIS 2016では,最先端の手法よりも優れています。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Online Unsupervised Video Object Segmentation via Contrastive Motion
Clustering [27.265597448266988]
オンライン教師なしビデオオブジェクトセグメンテーション(UVOS)は、以前のフレームを入力として使用し、さらに手動のアノテーションを使わずに、一次オブジェクトをストリーミングビデオから自動的に分離する。
主要な課題は、モデルに未来へのアクセスがなく、歴史のみに頼らなければならないこと、すなわち、セグメント化マスクがキャプチャされた直後に現在のフレームから予測されることである。
本研究では、オンラインUVOSにおいて、視覚的要素が同一であれば群として認識されるという共通の運命原理を利用して、光学的フローを入力として持つ新しいコントラッシブ・モーション・クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:40:31Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。