論文の概要: Analyzing and Improving the Pyramidal Predictive Network for Future
Video Frame Prediction
- arxiv url: http://arxiv.org/abs/2301.05421v1
- Date: Fri, 13 Jan 2023 07:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 14:44:31.213294
- Title: Analyzing and Improving the Pyramidal Predictive Network for Future
Video Frame Prediction
- Title(参考訳): 将来のビデオフレーム予測のためのピラミッド予測ネットワークの解析と改善
- Authors: Chaofan Ling, Weihua Li, Junpei Zhong
- Abstract要約: ピラミッド予測ネットワーク(PPNV1)は将来のビデオフレーム予測のタスクにおいて有望な結果をもたらす。
我々は,その信号の拡散と特徴的アーティファクトの公開と解析を行い,モデルアーキテクチャとトレーニング戦略における対応する改善を提案する。
- 参考スコア(独自算出の注目度): 1.4610038284393165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pyramidal predictive network (PPNV1) proposes an interesting temporal
pyramid architecture and yields promising results on the task of future
video-frame prediction. We expose and analyze its signal dissemination and
characteristic artifacts, and propose corresponding improvements in model
architecture and training strategies to address them. Although the PPNV1
theoretically mimics the workings of human brain, its careless signal
processing leads to aliasing in the network. We redesign the network
architecture to solve the problems. In addition to improving the unreasonable
information dissemination, the new architecture also aims to solve the aliasing
in neural networks. Different inputs are no longer simply concatenated, and the
downsampling and upsampling components have also been redesigned to ensure that
the network can more easily construct images from Fourier features of
low-frequency inputs. Finally, we further improve the training strategies, to
alleviate the problem of input inconsistency during training and testing.
Overall, the improved model is more interpretable, stronger, and the quality of
its predictions is better. Code is available at
https://github.com/Ling-CF/PPNV2.
- Abstract(参考訳): ピラミッド型予測ネットワーク (ppnv1) は, 興味深い時間的ピラミッドアーキテクチャを提案し, 将来の映像フレーム予測の課題に有望な結果をもたらす。
我々は,その信号伝達と特徴的アーティファクトを公開・分析し,それに対応するモデルアーキテクチャとトレーニング戦略の改善を提案する。
PPNV1は理論的には人間の脳の働きを模倣するが、その不注意な信号処理はネットワーク内のエイリアスを引き起こす。
私たちは問題を解決するためにネットワークアーキテクチャを再設計します。
新しいアーキテクチャは、不合理な情報拡散の改善に加えて、ニューラルネットワークのエイリアス化の解決も目指している。
異なる入力はもはや単に連結ではなく、ダウンサンプリングとアップサンプリングコンポーネントも再設計され、ネットワークが低周波入力のよりフーリエな特徴から画像を簡単に構築できるようになった。
最後に、トレーニングおよびテスト中の入力不整合の問題を軽減するため、トレーニング戦略をさらに改善する。
全体として、改良されたモデルはより解釈可能で、強く、予測の質が良い。
コードはhttps://github.com/Ling-CF/PPNV2.comで入手できる。
関連論文リスト
- Multi-Scale Feature Prediction with Auxiliary-Info for Neural Image Compression [13.076563599765176]
本稿では,ニューラルビデオ圧縮にインスパイアされた補助粗いネットワークと主ネットワークからなる新しい予測構造を導入する。
我々のモデルは、他のニューラル画像圧縮モデルより優れており、Tecnickデータセット上のVVCよりも19.49%高い速度歪み性能を実現している。
論文 参考訳(メタデータ) (2024-09-19T12:41:53Z) - PREMAP: A Unifying PREiMage APproximation Framework for Neural Networks [30.701422594374456]
本稿では,任意の多面体出力集合のアンダー・アンド・オーバー近似を生成する事前抽象化のためのフレームワークを提案する。
提案手法を様々なタスクで評価し,高インプット次元画像分類タスクに対する効率とスケーラビリティの大幅な向上を示す。
論文 参考訳(メタデータ) (2024-08-17T17:24:47Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Improved CNN-based Learning of Interpolation Filters for Low-Complexity
Inter Prediction in Video Coding [5.46121027847413]
本稿では,ニューラルネットワークを用いた新しい予測手法を提案する。
新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。
Versatile Video Coding (VVC)テストモデルで実装されると、0.77%、1.27%、および2.25%のBDレートの節約が達成される。
論文 参考訳(メタデータ) (2021-06-16T16:48:01Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - RAIN: A Simple Approach for Robust and Accurate Image Classification
Networks [156.09526491791772]
既存の敵防衛手法の大部分は、予測精度を犠牲にして堅牢性を実現することが示されている。
本稿では,ロバストおよび高精度画像分類N(RAIN)と呼ぶ新しい前処理フレームワークを提案する。
RAINは入力に対してランダム化を適用して、モデルフォワード予測パスと後方勾配パスの関係を壊し、モデルロバスト性を改善する。
STL10 と ImageNet のデータセットを用いて、様々な種類の敵攻撃に対する RAIN の有効性を検証する。
論文 参考訳(メタデータ) (2020-04-24T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。