論文の概要: Domain Alignment and Temporal Aggregation for Unsupervised Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2211.12036v1
- Date: Tue, 22 Nov 2022 06:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:02:58.902249
- Title: Domain Alignment and Temporal Aggregation for Unsupervised Video Object
Segmentation
- Title(参考訳): 教師なしビデオオブジェクトセグメンテーションのためのドメインアライメントと時間アグリゲーション
- Authors: Suhwan Cho, Minhyeok Lee, Seunghoon Lee, Sangyoun Lee
- Abstract要約: 外観の手がかりと動きの手がかりを協調的に活用する2ストリームアプローチは、広く注目を集めている。
ドメインアライメントモジュール(DAM)と時間アグリゲーションモジュール(TAM)を提案する。
DAMは、2つのモダリティ間の領域ギャップを、相互相関機構を用いて、値が同じ範囲にあるように強制することで解決する。
TAMは、ビデオのグローバルなキューを抽出し、活用することによって、長期的なコヒーレンスをキャプチャする。
- 参考スコア(独自算出の注目度): 6.131026007721573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object segmentation aims at detecting and segmenting the
most salient object in videos. In recent times, two-stream approaches that
collaboratively leverage appearance cues and motion cues have attracted
extensive attention thanks to their powerful performance. However, there are
two limitations faced by those methods: 1) the domain gap between appearance
and motion information is not well considered; and 2) long-term temporal
coherence within a video sequence is not exploited. To overcome these
limitations, we propose a domain alignment module (DAM) and a temporal
aggregation module (TAM). DAM resolves the domain gap between two modalities by
forcing the values to be in the same range using a cross-correlation mechanism.
TAM captures long-term coherence by extracting and leveraging global cues of a
video. On public benchmark datasets, our proposed approach demonstrates its
effectiveness, outperforming all existing methods by a substantial margin.
- Abstract(参考訳): 教師なしのビデオオブジェクトセグメンテーションは、ビデオの中でもっとも有意義なオブジェクトを検出し、セグメンテーションすることを目的としている。
近年では、外見の手がかりと動きの手がかりを協調的に活用する2ストリームアプローチが、その強力な性能によって広く注目を集めている。
しかし、その方法には2つの制限がある。
1) 外観と動作情報の領域ギャップは,十分に考慮されていない。
2)ビデオシーケンス内の長期的時間的コヒーレンスは利用されない。
これらの制限を克服するため、ドメインアライメントモジュール(DAM)と時間アグリゲーションモジュール(TAM)を提案する。
DAMは2つのモダリティ間の領域ギャップを、相互相関機構を用いて同じ範囲に強制することで解決する。
TAMはビデオのグローバルな手がかりを抽出し活用することによって、長期的なコヒーレンスをキャプチャする。
公開ベンチマークデータセットでは,提案手法の有効性を実証し,既存のメソッドをかなりのマージンで上回った。
関連論文リスト
- Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - DA-STC: Domain Adaptive Video Semantic Segmentation via Spatio-Temporal
Consistency [111.48756648371256]
マルチレベル融合モジュールを組み込んだドメイン適応型ビデオセマンティックセマンティックセグメンテーションのためのDA-STC法を提案する。
また,重要な時間的特徴の整合性を促進するために,カテゴリ対応機能アライメントモジュールを提案する。
本手法はドメイン適応型セマンティックセグメンテーションにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。