論文の概要: ViewCLR: Learning Self-supervised Video Representation for Unseen
Viewpoints
- arxiv url: http://arxiv.org/abs/2112.03905v1
- Date: Tue, 7 Dec 2021 18:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 14:41:27.025508
- Title: ViewCLR: Learning Self-supervised Video Representation for Unseen
Viewpoints
- Title(参考訳): ViewCLR: 見えない視点のための自己監督型ビデオ表現学習
- Authors: Srijan Das and Michael S. Ryoo
- Abstract要約: カメラ視点の変化に不変な自己教師付きビデオ表現を学習するViewCLRを提案する。
我々は、自己教師付きプレテキストタスクの学習可能な拡張と見なせるビュージェネレータを導入する。
- 参考スコア(独自算出の注目度): 47.54827916387143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning self-supervised video representation predominantly focuses on
discriminating instances generated from simple data augmentation schemes.
However, the learned representation often fails to generalize over unseen
camera viewpoints. To this end, we propose ViewCLR, that learns self-supervised
video representation invariant to camera viewpoint changes. We introduce a
view-generator that can be considered as a learnable augmentation for any
self-supervised pre-text tasks, to generate latent viewpoint representation of
a video. ViewCLR maximizes the similarities between the latent viewpoint
representation with its representation from the original viewpoint, enabling
the learned video encoder to generalize over unseen camera viewpoints.
Experiments on cross-view benchmark datasets including NTU RGB+D dataset show
that ViewCLR stands as a state-of-the-art viewpoint invariant self-supervised
method.
- Abstract(参考訳): 自己教師付きビデオ表現の学習は主に、単純なデータ拡張スキームから生成されたインスタンスの識別に焦点を当てている。
しかし、学習された表現は、しばしば目に見えないカメラの視点を一般化することができない。
この目的のために、カメラ視点の変化に不変な自己教師付きビデオ表現を学習するViewCLRを提案する。
我々は,ビデオの潜在視点表現を生成するために,自己教師付きプリテキストタスクの学習可能な拡張と見なすことのできるビュー生成子を提案する。
ViewCLRは、潜在視点表現と元の視点との類似性を最大化し、学習ビデオエンコーダが見えないカメラ視点を一般化できるようにする。
NTU RGB+Dデータセットを含むクロスビューベンチマークデータセットの実験は、ViewCLRが最先端の視点不変な自己管理手法であることを示している。
関連論文リスト
- Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Videos [66.1935609072708]
鍵となる仮説は、個々のビューがより正確にビューに依存しないテキストの要約を予測できるほど、それがより情報的になるということである。
本稿では,ビュー依存キャプション予測の相対的精度を,擬似ラベルを最もよく見るためのプロキシとして利用するフレームワークを提案する。
推論の間、我々のモデルは多視点ビデオ(言語やカメラのポーズなし)のみを入力として取り、各タイミングで見るのに最適な視点を返します。
論文 参考訳(メタデータ) (2024-11-13T16:31:08Z) - POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object
Interaction in the Multi-View World [59.545114016224254]
人間は、手と物体の相互作用の第三者による観察をエゴセントリックな視点に変換するのに長けている。
本稿では,自我中心の動画をほとんど持たない視点適応を実現するための,Prompt-Oriented View-Agnostic Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:54:44Z) - MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - Shepherding Slots to Objects: Towards Stable and Robust Object-Centric
Learning [28.368429312400885]
シングルビュー画像は、ビデオやマルチビュー画像よりも、特定のシーンをアンタングルする方法に関する情報が少ない。
シングルビュー画像のための新しいOCLフレームワークであるSLot Attention via SHepherding (SLASH)を導入し、Slot Attentionの上に2つの単純なyet効率のモジュールを配置する。
提案手法は,オブジェクト中心表現の一貫した学習を可能にし,4つのデータセット間で高い性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T07:07:29Z) - Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文 参考訳(メタデータ) (2022-03-24T16:38:54Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Broaden Your Views for Self-Supervised Video Learning [97.52216510672251]
ビデオのための自己教師型学習フレームワークBraVeを紹介する。
BraVeでは、ビューの1つがビデオの狭い一時的なウィンドウにアクセスでき、もう1つのビューはビデオコンテンツに広くアクセスできます。
BraVeが標準ビデオおよびオーディオ分類ベンチマークで自己監督表現学習の最先端の結果を達成することを実証します。
論文 参考訳(メタデータ) (2021-03-30T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。