論文の概要: Removing the Background by Adding the Background: Towards Background
Robust Self-supervised Video Representation Learning
- arxiv url: http://arxiv.org/abs/2009.05769v4
- Date: Thu, 22 Apr 2021 03:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 08:06:28.699692
- Title: Removing the Background by Adding the Background: Towards Background
Robust Self-supervised Video Representation Learning
- Title(参考訳): 背景付加による背景除去:背景ロバストな自己教師付き映像表現学習に向けて
- Authors: Jinpeng Wang, Yuting Gao, Ke Li, Yiqi Lin, Andy J. Ma, Hao Cheng, Pai
Peng, Feiyue Huang, Rongrong Ji, Xing Sun
- Abstract要約: 自己教師付き学習は、ディープニューラルネットワークの映像表現能力を改善する大きな可能性を示している。
現在の手法のいくつかは背景から騙される傾向があり、つまり、予測は動きではなく動画の背景に大きく依存する。
背景を追加することで背景の影響を取り除くことを提案する。つまり、ビデオの場合、静的なフレームをランダムに選択し、他のフレームに付加して、邪魔なビデオサンプルを構築する。
そして、モデルを強制的に、気を散らすビデオの特徴とオリジナルビデオの特徴を近づけることで、モデルが明示的に制限されるようにします。
- 参考スコア(独自算出の注目度): 105.42550534895828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has shown great potentials in improving the video
representation ability of deep neural networks by getting supervision from the
data itself. However, some of the current methods tend to cheat from the
background, i.e., the prediction is highly dependent on the video background
instead of the motion, making the model vulnerable to background changes. To
mitigate the model reliance towards the background, we propose to remove the
background impact by adding the background. That is, given a video, we randomly
select a static frame and add it to every other frames to construct a
distracting video sample. Then we force the model to pull the feature of the
distracting video and the feature of the original video closer, so that the
model is explicitly restricted to resist the background influence, focusing
more on the motion changes. We term our method as \emph{Background Erasing}
(BE). It is worth noting that the implementation of our method is so simple and
neat and can be added to most of the SOTA methods without much efforts.
Specifically, BE brings 16.4% and 19.1% improvements with MoCo on the severely
biased datasets UCF101 and HMDB51, and 14.5% improvement on the less biased
dataset Diving48.
- Abstract(参考訳): 自己教師付き学習は、データ自体から監視を得ることで、ディープニューラルネットワークの映像表現能力を向上させる大きな可能性を示している。
しかし、現在の手法のいくつかは背景から騙される傾向がある。つまり、予測は動きではなくビデオの背景に依存しており、モデルが背景変化に弱い。
背景へのモデル依存を軽減するため,背景を追加することで背景の影響を取り除くことを提案する。
つまり、ビデオの場合、静的なフレームをランダムに選択し、他のフレームに追加して、邪魔なビデオサンプルを構築します。
そして、モデルに注意をそらすビデオの特徴とオリジナルのビデオの特徴をもっと近づけるように強制し、モデルが背景の影響に抵抗するために明示的に制限され、動きの変化にもっと焦点を合わせるようにします。
我々はこの手法を \emph{Background Erasing} (BE) と呼ぶ。
我々のメソッドの実装は非常にシンプルで簡潔であり、多くの努力を伴わずにほとんどのSOTAメソッドに追加できることは注目に値する。
具体的には、BEは、重度のバイアス付きデータセットUCF101とHMDB51でMoCoを16.4%、19.1%改善し、バイアスの少ないデータセットDiving48では14.5%改善した。
関連論文リスト
- Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models [52.93036326078229]
画像生成のための数十億のデータセットが市販されているが、同じスケールの同様のビデオデータを集めることは依然として難しい。
本研究では,ビデオ合成タスクの実用的な解決策として,ビデオデータを用いた事前学習画像拡散モデルの微調整について検討する。
我々のモデルであるPreserve Your Own correlation (PYoCo)は、UCF-101およびMSR-VTTベンチマークでSOTAゼロショットのテキスト・ビデオ結果が得られる。
論文 参考訳(メタデータ) (2023-05-17T17:59:16Z) - Saliency-aware Stereoscopic Video Retargeting [4.332879001008757]
本稿では,教師なし深層学習に基づくステレオビデオネットワークを提案する。
我々のモデルはまず、まず静かな物体を検出し、ステレオフレームの静かな部分の歪みを最小限に抑えるように、すべての物体をゆがめます。
ネットワークを訓練するために、注意機構を用いて左右のビューを融合し、再ターゲットされたフレームを再構成モジュールに供給し、再ターゲットされたフレームをパララックス入力フレームに反転させる。
論文 参考訳(メタデータ) (2023-04-18T09:38:33Z) - CLAD: A Contrastive Learning based Approach for Background Debiasing [43.0296255565593]
我々は,CNNにおける背景バイアスを軽減するために,対照的な学習に基づくアプローチを導入する。
前回のベンチマークを4.1%で上回り、バックグラウンドチャレンジデータセットで最先端の結果を得た。
論文 参考訳(メタデータ) (2022-10-06T08:33:23Z) - Saliency detection with moving camera via background model completion [0.5076419064097734]
本稿では,SDBMC(Saliency Detection via background model completion)という新しいフレームワークを提案する。
バックグラウンドモデラーとディープラーニングバックグラウンド/地上セグメンテーションネットワークから構成される。
バックグラウンド/地上セグメンタを採用するが、特定のビデオデータセットで事前訓練されているため、見当たらないビデオの塩分濃度も検出できる。
論文 参考訳(メタデータ) (2021-10-30T11:17:58Z) - Motion-aware Self-supervised Video Representation Learning via
Foreground-background Merging [19.311818681787845]
我々は、選択したビデオの前景領域を背景に構成するフォアグラウンド・バックグラウンド・マージング(FAME)を提案する。
FAMEは、様々なバックボーンを用いて、異なる下流タスクのパフォーマンスを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-30T13:45:26Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting [107.39743751292028]
TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。
動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。
本研究では,最先端手法に対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-31T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。