論文の概要: TSANET: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2303.04376v1
- Date: Wed, 8 Mar 2023 04:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 14:58:33.769393
- Title: TSANET: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation
- Title(参考訳): TSANET: 教師なしビデオオブジェクトセグメンテーションのための時間とスケールアライメント
- Authors: Seunghoon Lee, Suhwan Cho, Dogyoon Lee, Minhyeok Lee, Sangyoun Lee
- Abstract要約: Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
本稿では,上記の2つのアプローチの制約に,時間とスケールの両面から対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
- 参考スコア(独自算出の注目度): 6.362264393795084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised Video Object Segmentation (UVOS) refers to the challenging task
of segmenting the prominent object in videos without manual guidance. In other
words, the network detects the accurate region of the target object in a
sequence of RGB frames without prior knowledge. In recent works, two approaches
for UVOS have been discussed that can be divided into: appearance and
appearance-motion based methods. Appearance based methods utilize the
correlation information of inter-frames to capture target object that commonly
appears in a sequence. However, these methods does not consider the motion of
target object due to exploit the correlation information between randomly
paired frames. Appearance-motion based methods, on the other hand, fuse the
appearance features from RGB frames with the motion features from optical flow.
Motion cue provides useful information since salient objects typically show
distinctive motion in a sequence. However, these approaches have the limitation
that the dependency on optical flow is dominant. In this paper, we propose a
novel framework for UVOS that can address aforementioned limitations of two
approaches in terms of both time and scale. Temporal Alignment Fusion aligns
the saliency information of adjacent frames with the target frame to leverage
the information of adjacent frames. Scale Alignment Decoder predicts the target
object mask precisely by aggregating differently scaled feature maps via
continuous mapping with implicit neural representation. We present experimental
results on public benchmark datasets, DAVIS 2016 and FBMS, which demonstrate
the effectiveness of our method. Furthermore, we outperform the
state-of-the-art methods on DAVIS 2016.
- Abstract(参考訳): Unsupervised Video Object Segmentation (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
言い換えれば、ネットワークは、事前知識のないRGBフレームのシーケンスにおいて、対象物の正確な領域を検出する。
最近の研究では、外見と外見に基づく方法の2つのアプローチが議論されている。
出現に基づく手法は、フレーム間の相関情報を用いて、通常シーケンスに現れるターゲットオブジェクトをキャプチャする。
しかし,これらの手法は,ランダムに組んだフレーム間の相関情報を利用するため,対象物体の動きを考慮しない。
一方、出現動作に基づく手法は、RGBフレームからの外観特徴と光学的フローからの運動特徴とを融合させる。
運動キューは、典型的にはシーケンスで特徴的な動きを示すため、有用な情報を提供する。
しかし、これらのアプローチは光の流れへの依存が支配的であるという限界がある。
本稿では,上記の2つのアプローチの制約に時間とスケールの両面から対処できるUVOSの新しいフレームワークを提案する。
時間アライメントフュージョンは、隣接するフレームのサリエンシ情報を目標フレームと整列させ、隣接するフレームの情報を活用する。
スケールアライメントデコーダは、暗黙のニューラル表現を持つ連続マッピングにより、異なるスケールのフィーチャマップを集約することにより、ターゲットオブジェクトマスクを正確に予測する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
DAVIS 2016では,最先端の手法よりも優れています。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Online Unsupervised Video Object Segmentation via Contrastive Motion
Clustering [27.265597448266988]
オンライン教師なしビデオオブジェクトセグメンテーション(UVOS)は、以前のフレームを入力として使用し、さらに手動のアノテーションを使わずに、一次オブジェクトをストリーミングビデオから自動的に分離する。
主要な課題は、モデルに未来へのアクセスがなく、歴史のみに頼らなければならないこと、すなわち、セグメント化マスクがキャプチャされた直後に現在のフレームから予測されることである。
本研究では、オンラインUVOSにおいて、視覚的要素が同一であれば群として認識されるという共通の運命原理を利用して、光学的フローを入力として持つ新しいコントラッシブ・モーション・クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:40:31Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。