論文の概要: Saliency-aware Stereoscopic Video Retargeting
- arxiv url: http://arxiv.org/abs/2304.08852v1
- Date: Tue, 18 Apr 2023 09:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:28:16.541217
- Title: Saliency-aware Stereoscopic Video Retargeting
- Title(参考訳): saliency-awareステレオビデオ再ターゲティング
- Authors: Hassan Imani, Md Baharul Islam, Lai-Kuan Wong
- Abstract要約: 本稿では,教師なし深層学習に基づくステレオビデオネットワークを提案する。
我々のモデルはまず、まず静かな物体を検出し、ステレオフレームの静かな部分の歪みを最小限に抑えるように、すべての物体をゆがめます。
ネットワークを訓練するために、注意機構を用いて左右のビューを融合し、再ターゲットされたフレームを再構成モジュールに供給し、再ターゲットされたフレームをパララックス入力フレームに反転させる。
- 参考スコア(独自算出の注目度): 4.332879001008757
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Stereo video retargeting aims to resize an image to a desired aspect ratio.
The quality of retargeted videos can be significantly impacted by the stereo
videos spatial, temporal, and disparity coherence, all of which can be impacted
by the retargeting process. Due to the lack of a publicly accessible annotated
dataset, there is little research on deep learning-based methods for stereo
video retargeting. This paper proposes an unsupervised deep learning-based
stereo video retargeting network. Our model first detects the salient objects
and shifts and warps all objects such that it minimizes the distortion of the
salient parts of the stereo frames. We use 1D convolution for shifting the
salient objects and design a stereo video Transformer to assist the retargeting
process. To train the network, we use the parallax attention mechanism to fuse
the left and right views and feed the retargeted frames to a reconstruction
module that reverses the retargeted frames to the input frames. Therefore, the
network is trained in an unsupervised manner. Extensive qualitative and
quantitative experiments and ablation studies on KITTI stereo 2012 and 2015
datasets demonstrate the efficiency of the proposed method over the existing
state-of-the-art methods. The code is available at
https://github.com/z65451/SVR/.
- Abstract(参考訳): ステレオビデオ再ターゲティングは、画像を所望のアスペクト比にリサイズすることを目的としている。
再ターゲティングビデオの品質は、空間的、時間的、不一致のコヒーレンスによって大きく影響され、それらのすべてが再ターゲティングプロセスによって影響を受ける。
一般公開された注釈付きデータセットがないため、ステレオビデオの再ターゲティングのためのディープラーニングベースの方法の研究はほとんどない。
本稿では,教師なし深層学習に基づくステレオビデオ再ターゲティングネットワークを提案する。
本モデルではまず, ステレオフレームの正接部分の歪みを最小限に抑えるため, 正接物体を検出, シフトし, 全ての物体を歪ませる。
我々は、1Dコンボリューションを用いてサルエントオブジェクトをシフトし、ステレオビデオ変換器を設計し、再ターゲットプロセスを支援する。
ネットワークのトレーニングにはパララックスアテンション機構を用いて、左右のビューを融合させ、再ターゲットのフレームを再ターゲットのフレームを入力のフレームに反転させる再構成モジュールに供給する。
したがって、ネットワークは教師なしの方法で訓練される。
KITTIステレオ2012および2015データセットの大規模な定性的および定量的実験とアブレーション研究は、既存の最先端手法よりも提案手法の有効性を実証している。
コードはhttps://github.com/z65451/SVR/で入手できる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - Stereoscopic Universal Perturbations across Different Architectures and
Datasets [60.021985610201156]
本研究では,画像の逆摂動が不均一性推定タスクの深部ステレオマッチングネットワークに与える影響について検討する。
本稿では,データセット内の任意のステレオ画像対に追加されると,ステレオネットワークを騙すことのできる,単一の摂動セットを構築する方法を提案する。
我々の摂動は、最先端のステレオネットワークのD1エラーを1%から87%に増やすことができる。
論文 参考訳(メタデータ) (2021-12-12T02:11:31Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Cloud based Scalable Object Recognition from Video Streams using
Orientation Fusion and Convolutional Neural Networks [11.44782606621054]
畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。
CNNはいまだに深刻な精度低下、特に照明変動データセットに悩まされている。
視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T07:15:15Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting [107.39743751292028]
TransMoMoは、ソースビデオ中の人の動きを、ターゲットの別のビデオに現実的に転送することができる。
動き, 構造, ビューアングルを含む3つの要因の不変性を利用する。
本研究では,最先端手法に対する提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-31T17:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。