論文の概要: Anti-aliasing Predictive Coding Network for Future Video Frame
Prediction
- arxiv url: http://arxiv.org/abs/2301.05421v2
- Date: Thu, 11 May 2023 12:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 18:08:55.135734
- Title: Anti-aliasing Predictive Coding Network for Future Video Frame
Prediction
- Title(参考訳): 将来の映像フレーム予測のためのアンチエイリアシング予測符号化ネットワーク
- Authors: Chaofan Ling, Weihua Li, Junpei Zhong
- Abstract要約: ここでは、正確で鋭い将来のフレームを生成することを目的とした、予測的コーディングベースのモデルを紹介します。
我々は、ニューラルネットワークが明確で自然なフレームを生成することを保証するために、いくつかのアーティファクトを提案し、改善する。
- 参考スコア(独自算出の注目度): 1.4610038284393165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce here a predictive coding based model that aims to generate
accurate and sharp future frames. Inspired by the predictive coding hypothesis
and related works, the total model is updated through a combination of
bottom-up and top-down information flows, which can enhance the interaction
between different network levels. Most importantly, We propose and improve
several artifacts to ensure that the neural networks generate clear and natural
frames. Different inputs are no longer simply concatenated or added, they are
calculated in a modulated manner to avoid being roughly fused. The downsampling
and upsampling modules have been redesigned to ensure that the network can more
easily construct images from Fourier features of low-frequency inputs.
Additionally, the training strategies are also explored and improved to
generate believable results and alleviate inconsistency between the input
predicted frames and ground truth. Our proposals achieve results that better
balance pixel accuracy and visualization effect.
- Abstract(参考訳): 本稿では,精度とシャープな将来のフレーム生成を目的とした予測符号化モデルを提案する。
予測的符号化仮説と関連する作業に触発され、ボトムアップとトップダウンの情報フローの組み合わせによって総モデルが更新され、異なるネットワークレベル間の相互作用が促進される。
最も重要なのは、ニューラルネットワークがクリアで自然なフレームを生成するように、いくつかのアーティファクトを提案し、改善することです。
異なる入力はもはや単に連結や付加ではなく、大まかに融合されるのを避けるために変調された方法で計算される。
ダウンサンプリングおよびアップサンプリングモジュールは、低周波入力のフーリエ特徴からのイメージをより容易に構築できるように再設計されている。
さらに、トレーニング戦略も検討され改善され、実行可能な結果が得られ、入力された予測フレームと地上の真実との間の矛盾が軽減される。
提案手法は,画素精度と可視化効果のバランスが向上する。
関連論文リスト
- Multi-Scale Feature Prediction with Auxiliary-Info for Neural Image Compression [13.076563599765176]
本稿では,ニューラルビデオ圧縮にインスパイアされた補助粗いネットワークと主ネットワークからなる新しい予測構造を導入する。
我々のモデルは、他のニューラル画像圧縮モデルより優れており、Tecnickデータセット上のVVCよりも19.49%高い速度歪み性能を実現している。
論文 参考訳(メタデータ) (2024-09-19T12:41:53Z) - PREMAP: A Unifying PREiMage APproximation Framework for Neural Networks [30.701422594374456]
本稿では,任意の多面体出力集合のアンダー・アンド・オーバー近似を生成する事前抽象化のためのフレームワークを提案する。
提案手法を様々なタスクで評価し,高インプット次元画像分類タスクに対する効率とスケーラビリティの大幅な向上を示す。
論文 参考訳(メタデータ) (2024-08-17T17:24:47Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - Improved CNN-based Learning of Interpolation Filters for Low-Complexity
Inter Prediction in Video Coding [5.46121027847413]
本稿では,ニューラルネットワークを用いた新しい予測手法を提案する。
新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。
Versatile Video Coding (VVC)テストモデルで実装されると、0.77%、1.27%、および2.25%のBDレートの節約が達成される。
論文 参考訳(メタデータ) (2021-06-16T16:48:01Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - RAIN: A Simple Approach for Robust and Accurate Image Classification
Networks [156.09526491791772]
既存の敵防衛手法の大部分は、予測精度を犠牲にして堅牢性を実現することが示されている。
本稿では,ロバストおよび高精度画像分類N(RAIN)と呼ぶ新しい前処理フレームワークを提案する。
RAINは入力に対してランダム化を適用して、モデルフォワード予測パスと後方勾配パスの関係を壊し、モデルロバスト性を改善する。
STL10 と ImageNet のデータセットを用いて、様々な種類の敵攻撃に対する RAIN の有効性を検証する。
論文 参考訳(メタデータ) (2020-04-24T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。