論文の概要: See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks
- arxiv url: http://arxiv.org/abs/2001.06810v1
- Date: Sun, 19 Jan 2020 11:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 12:38:54.880938
- Title: See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks
- Title(参考訳): 監視されていないビデオオブジェクトのセグメンテーションとコ・アテンション・シームズ・ネットワーク
- Authors: Xiankai Lu, Wenguan Wang, Chao Ma, Jianbing Shen, Ling Shao, and Fatih
Porikli
- Abstract要約: 教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 184.4379622593225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel network, called CO-attention Siamese Network (COSNet),
to address the unsupervised video object segmentation task from a holistic
view. We emphasize the importance of inherent correlation among video frames
and incorporate a global co-attention mechanism to improve further the
state-of-the-art deep learning based solutions that primarily focus on learning
discriminative foreground representations over appearance and motion in
short-term temporal segments. The co-attention layers in our network provide
efficient and competent stages for capturing global correlations and scene
context by jointly computing and appending co-attention responses into a joint
feature space. We train COSNet with pairs of video frames, which naturally
augments training data and allows increased learning capacity. During the
segmentation stage, the co-attention model encodes useful information by
processing multiple reference frames together, which is leveraged to infer the
frequently reappearing and salient foreground objects better. We propose a
unified and end-to-end trainable framework where different co-attention
variants can be derived for mining the rich context within videos. Our
extensive experiments over three large benchmarks manifest that COSNet
outperforms the current alternatives by a large margin.
- Abstract(参考訳): 本稿では,Co-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入し,包括的視点から,教師なしビデオオブジェクトのセグメンテーションタスクに対処する。
我々は,映像フレーム間の固有相関の重要性を強調し,短時間の時間セグメントにおける外見や動きに対する差別的前景表現の学習に重点を置いた,最先端のディープラーニングベースのソリューションを改善するためのグローバルなコアテンション機構を取り入れた。
ネットワーク内のコアテンション層は,共同計算と共同特徴空間へのコアテンション応答の付加により,グローバルな相関関係とシーンコンテキストを捕捉するための効率的かつ有能な段階を提供する。
COSNetをビデオフレームのペアでトレーニングし、トレーニングデータを自然に強化し、学習能力を向上します。
セグメンテーション段階において、コアテンションモデルは、複数の参照フレームを一緒に処理することで有用な情報を符号化し、頻繁に出現し、より健全なフォアグラウンドオブジェクトを推測する。
ビデオ内のリッチなコンテキストをマイニングするために,さまざまなコアテンション変種を導出できる統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
3つの大きなベンチマークに関する大規模な実験では、COSNetが現在の選択肢よりも大きなマージンで優れています。
関連論文リスト
- SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Co-attention Propagation Network for Zero-Shot Video Object Segmentation [91.71692262860323]
ゼロショットオブジェクトセグメンテーション(ZS-VOS)は、これらのオブジェクトを事前に知ることなく、ビデオシーケンス内のオブジェクトをセグメンテーションすることを目的としている。
既存のZS-VOSメソッドは、しばしば前景と背景を区別したり、複雑なシナリオで前景を追跡するのに苦労する。
本稿では,オブジェクトの追跡とセグメンテーションが可能なエンコーダデコーダに基づく階層的コアテンション伝搬ネットワーク(HCPN)を提案する。
論文 参考訳(メタデータ) (2023-04-08T04:45:48Z) - Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised
Framework with Spatio-Temporal Collaboration [13.284951215948052]
ビデオにおけるtextbfS-patiotextbfTemporal textbfClaboration の例を示す。
提案手法は,TrackR-CNN と MaskTrack R-CNN の完全教師付き性能よりも優れる。
論文 参考訳(メタデータ) (2022-12-15T02:44:13Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。