論文の概要: A new way of video compression via forward-referencing using deep
learning
- arxiv url: http://arxiv.org/abs/2208.06678v1
- Date: Sat, 13 Aug 2022 16:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:40:07.898051
- Title: A new way of video compression via forward-referencing using deep
learning
- Title(参考訳): 深層学習を用いた前方参照によるビデオ圧縮の新手法
- Authors: S.M.A.K. Rajin, M. Murshed, M. Paul, S.W. Teng, J. Ma
- Abstract要約: 本稿では,すでに符号化されたフレームから人間のポーズをモデル化し,新しい映像符号化手法を提案する。
提案手法は,従来の後方参照フレームの限界を克服できると考えられる。
実験結果から,提案手法は最大2.83dBのPSNRゲインと25.93%の残留保存をハイモーションビデオシーケンスに適用できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To exploit high temporal correlations in video frames of the same scene, the
current frame is predicted from the already-encoded reference frames using
block-based motion estimation and compensation techniques. While this approach
can efficiently exploit the translation motion of the moving objects, it is
susceptible to other types of affine motion and object occlusion/deocclusion.
Recently, deep learning has been used to model the high-level structure of
human pose in specific actions from short videos and then generate virtual
frames in future time by predicting the pose using a generative adversarial
network (GAN). Therefore, modelling the high-level structure of human pose is
able to exploit semantic correlation by predicting human actions and
determining its trajectory. Video surveillance applications will benefit as
stored big surveillance data can be compressed by estimating human pose
trajectories and generating future frames through semantic correlation. This
paper explores a new way of video coding by modelling human pose from the
already-encoded frames and using the generated frame at the current time as an
additional forward-referencing frame. It is expected that the proposed approach
can overcome the limitations of the traditional backward-referencing frames by
predicting the blocks containing the moving objects with lower residuals.
Experimental results show that the proposed approach can achieve on average up
to 2.83 dB PSNR gain and 25.93\% bitrate savings for high motion video
sequences
- Abstract(参考訳): 同じシーンの映像フレームで高い時間相関を生かすために、ブロックベースの動き推定と補償技術を用いて、既に符号化された参照フレームから現在のフレームを予測する。
このアプローチは移動物体の翻訳運動を効果的に利用することができるが、他の種類のアフィン運動や物体の閉塞・隠蔽の影響を受けやすい。
近年,映像から特定の行動における人間のポーズの高レベル構造をモデル化し,GAN(Generative Adversarial Network)を用いてポーズを予測することによって,将来的な仮想フレームの生成が進められている。
したがって、人間のポーズの高レベル構造をモデル化することは、人間の行動を予測し、その軌道を決定することによって意味的相関を利用することができる。
ビデオ監視アプリケーションは、人間のポーズの軌跡を推定し、セマンティック相関によって将来のフレームを生成することで、保存された大きな監視データを圧縮できるため、役に立つだろう。
本稿では、既に符号化されたフレームから人間のポーズをモデル化し、現在生成されたフレームを新たな前方参照フレームとして用いることで、新たなビデオ符号化方法を検討する。
提案手法は,移動物体を含むブロックを低残差で予測することにより,従来の後方参照フレームの限界を克服できると考えられる。
実験結果から,提案手法は最大2.83dbpsnrゲインと25.93\%のビットレート節約が可能であることが判明した。
関連論文リスト
- Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Kinematic-aware Hierarchical Attention Network for Human Pose Estimation
in Videos [17.831839654593452]
従来の人間のポーズ推定手法は, 連続するフレームの特徴を活用することで, 有望な結果を示した。
ほとんどのアプローチでは、ジッターに精度を妥協し、人間の動きの時間的側面を理解しない。
キネマティックなキーポイント機能を利用するアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-11-29T01:46:11Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z) - Robust Motion In-betweening [17.473287573543065]
本稿では,3次元アニメーターのための新しいツールとして機能する,新しい頑健な遷移生成技術を提案する。
このシステムは、時間的にスパーサをアニメーションの制約として使用する高品質な動作を合成する。
私たちは、トレーニングされたモデルを使用して運用シナリオで相互運用を行う、カスタムのMotionBuilderプラグインを紹介します。
論文 参考訳(メタデータ) (2021-02-09T16:52:45Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。