論文の概要: Unsupervised Action Localization Crop in Video Retargeting for 3D
ConvNets
- arxiv url: http://arxiv.org/abs/2111.07426v1
- Date: Sun, 14 Nov 2021 19:27:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 14:54:41.782006
- Title: Unsupervised Action Localization Crop in Video Retargeting for 3D
ConvNets
- Title(参考訳): 3D ConvNet のためのビデオリターゲティングにおける教師なしアクションローカライゼーション
- Authors: Prithwish Jana, Swarnabja Bhaumik and Partha Pratim Mohanta
- Abstract要約: 3D CNNは、元々の寸法の正方形のビデオを必要とする。使用中のランダムまたはセンターカッピング技術は、ビデオの主題を完全に取り除くかもしれない。
本稿では,これを空間的・映像間合成問題として,教師なしのビデオトリミング手法を提案する。
合成ビデオは1:1のアスペクト比を維持し、サイズが小さく、一定期間にわたってビデオオブジェクトをターゲットにしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Untrimmed videos on social media or those captured by robots and surveillance
cameras are of varied aspect ratios. However, 3D CNNs require a square-shaped
video whose spatial dimension is smaller than the original one. Random or
center-cropping techniques in use may leave out the video's subject altogether.
To address this, we propose an unsupervised video cropping approach by shaping
this as a retargeting and video-to-video synthesis problem. The synthesized
video maintains 1:1 aspect ratio, smaller in size and is targeted at the
video-subject throughout the whole duration. First, action localization on the
individual frames is performed by identifying patches with homogeneous motion
patterns and a single salient patch is pin-pointed. To avoid viewpoint jitters
and flickering artifacts, any inter-frame scale or position changes among the
patches is performed gradually over time. This issue is addressed with a
poly-Bezier fitting in 3D space that passes through some chosen pivot
timestamps and its shape is influenced by in-between control timestamps. To
corroborate the effectiveness of the proposed method, we evaluate the video
classification task by comparing our dynamic cropping with static random on
three benchmark datasets: UCF-101, HMDB-51 and ActivityNet v1.3. The clip
accuracy and top-1 accuracy for video classification after our cropping,
outperform 3D CNN performances for same-sized inputs with random crop;
sometimes even surpassing larger random crop sizes.
- Abstract(参考訳): ソーシャルメディアやロボットや監視カメラで撮影したビデオは、さまざまなアスペクト比を持っている。
しかし、3D CNNは、空間次元が元のものよりも小さい正方形のビデオを必要とする。
ランダムまたはセンタークロッピング技術は、ビデオの主題を完全に排除する可能性がある。
そこで本研究では,これを再ターゲット化およびビデオ間合成問題として,教師なしのビデオトリミング手法を提案する。
合成ビデオは1:1アスペクト比を維持し、サイズが小さく、全期間にわたってビデオオブジェクトをターゲットにしている。
まず、均質な動きパターンを有するパッチを識別し、個々のフレームに対するアクションローカライズを行い、単一のサルエントパッチをピンポイントする。
視点ジッタやフレッカリングアーティファクトを避けるため、パッチ間のフレーム間スケールや位置変更は時間とともに徐々に行われる。
この問題は、選択したピボットタイムスタンプを通過する3次元空間のポリベジエフィッティングによって解決され、その形状は相互制御タイムスタンプの影響を受けている。
提案手法の有効性を明らかにするため,UCF-101,HMDB-51,ActivityNet v1.3の3つのベンチマークデータセット上で,動的トリミングと静的ランダムを比較して映像分類タスクを評価する。
クリップ精度と動画分類のtop-1精度は、ランダムな作物を含む同サイズの入力で3d cnnのパフォーマンスを上回っており、時にはより大きなランダムな作物サイズを超えることもある。
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Consistent Depth of Moving Objects in Video [52.72092264848864]
移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。
我々は、この目的を、深度予測CNNを入力ビデオ全体にわたって補助的なシーンフロー予測でタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。
我々は、さまざまな移動物体(ペット、人、車)とカメラの動きを含む様々な挑戦的なビデオに対して、正確かつ時間的に一貫性のある結果を示す。
論文 参考訳(メタデータ) (2021-08-02T20:53:18Z) - Spatiotemporal Bundle Adjustment for Dynamic 3D Human Reconstruction in
the Wild [49.672487902268706]
本稿では,カメラの時間的アライメントと3次元点三角測量を共同で推定する枠組みを提案する。
複数の無同期・無同期ビデオカメラで捉えたイベントにおいて、人間の身体の3次元運動軌跡を再構成する。
論文 参考訳(メタデータ) (2020-07-24T23:50:46Z) - Across Scales & Across Dimensions: Temporal Super-Resolution using Deep
Internal Learning [11.658606722158517]
我々は、低フレームの入力ビデオから直接抽出した例に基づいて、ビデオ固有のCNNを訓練する。
提案手法は,単一ビデオシーケンス内の小さな時空間パッチの強い再帰性を利用する。
ビデオフレームの高解像度化は、そのビデオの時間分解能を高めるための強力な例を提供する。
論文 参考訳(メタデータ) (2020-03-19T15:53:01Z) - An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos [5.414308305392762]
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2020-02-06T05:07:41Z) - Synergetic Reconstruction from 2D Pose and 3D Motion for Wide-Space
Multi-Person Video Motion Capture in the Wild [3.0015034534260665]
マルチカメラの精度と滑らかさを考慮したマーカーレスモーションキャプチャ手法を提案する。
提案手法は,各人物の3Dポーズを予測し,マルチカメラ画像のバウンディングボックスを決定する。
提案手法を,様々なデータセットと実スポーツフィールドを用いて評価した。
論文 参考訳(メタデータ) (2020-01-16T02:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。