Fugu-MT 論文翻訳(概要): Domain Alignment and Temporal Aggregation for Unsupervised Video Object Segmentation

論文の概要: Domain Alignment and Temporal Aggregation for Unsupervised Video Object Segmentation

arxiv url: http://arxiv.org/abs/2211.12036v1
Date: Tue, 22 Nov 2022 06:19:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 18:02:58.902249
Title: Domain Alignment and Temporal Aggregation for Unsupervised Video Object Segmentation
Title（参考訳）: 教師なしビデオオブジェクトセグメンテーションのためのドメインアライメントと時間アグリゲーション
Authors: Suhwan Cho, Minhyeok Lee, Seunghoon Lee, Sangyoun Lee
Abstract要約: 外観の手がかりと動きの手がかりを協調的に活用する2ストリームアプローチは、広く注目を集めている。ドメインアライメントモジュール(DAM)と時間アグリゲーションモジュール(TAM)を提案する。 DAMは、2つのモダリティ間の領域ギャップを、相互相関機構を用いて、値が同じ範囲にあるように強制することで解決する。 TAMは、ビデオのグローバルなキューを抽出し、活用することによって、長期的なコヒーレンスをキャプチャする。
参考スコア（独自算出の注目度）: 6.131026007721573
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised video object segmentation aims at detecting and segmenting the most salient object in videos. In recent times, two-stream approaches that collaboratively leverage appearance cues and motion cues have attracted extensive attention thanks to their powerful performance. However, there are two limitations faced by those methods: 1) the domain gap between appearance and motion information is not well considered; and 2) long-term temporal coherence within a video sequence is not exploited. To overcome these limitations, we propose a domain alignment module (DAM) and a temporal aggregation module (TAM). DAM resolves the domain gap between two modalities by forcing the values to be in the same range using a cross-correlation mechanism. TAM captures long-term coherence by extracting and leveraging global cues of a video. On public benchmark datasets, our proposed approach demonstrates its effectiveness, outperforming all existing methods by a substantial margin.
Abstract（参考訳）: 教師なしのビデオオブジェクトセグメンテーションは、ビデオの中でもっとも有意義なオブジェクトを検出し、セグメンテーションすることを目的としている。近年では、外見の手がかりと動きの手がかりを協調的に活用する2ストリームアプローチが、その強力な性能によって広く注目を集めている。しかし、その方法には2つの制限がある。 1) 外観と動作情報の領域ギャップは,十分に考慮されていない。 2)ビデオシーケンス内の長期的時間的コヒーレンスは利用されない。これらの制限を克服するため、ドメインアライメントモジュール(DAM)と時間アグリゲーションモジュール(TAM)を提案する。 DAMは2つのモダリティ間の領域ギャップを、相互相関機構を用いて同じ範囲に強制することで解決する。 TAMはビデオのグローバルな手がかりを抽出し活用することによって、長期的なコヒーレンスをキャプチャする。公開ベンチマークデータセットでは,提案手法の有効性を実証し,既存のメソッドをかなりのマージンで上回った。

関連論文リスト

Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Rethinking Amodal Video Segmentation from Learning Supervised Signals with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文参考訳（メタデータ） (2023-09-23T04:12:02Z)
Multi-grained Temporal Prototype Learning for Few-shot Video Object Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2023-09-20T09:16:34Z)
Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文参考訳（メタデータ） (2023-07-16T03:48:57Z)
Tsanet: Temporal and Scale Alignment for Unsupervised Video Object Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。 DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文参考訳（メタデータ） (2023-03-08T04:59:43Z)
Exploring Motion and Appearance Information for Temporal Sentence Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2022-01-03T02:44:18Z)
Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-06T14:50:50Z)
Target-Aware Object Discovery and Association for Unsupervised Video Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。より正確で効率的な時間区分のための新しいアプローチを紹介します。 DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2021-04-10T14:39:44Z)
Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文参考訳（メタデータ） (2020-06-02T06:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。