論文の概要: On the Choice of Perception Loss Function for Learned Video Compression
- arxiv url: http://arxiv.org/abs/2305.19301v2
- Date: Wed, 23 Aug 2023 02:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 18:10:42.148919
- Title: On the Choice of Perception Loss Function for Learned Video Compression
- Title(参考訳): 学習ビデオ圧縮における知覚損失関数の選択について
- Authors: Sadaf Salehkalaibar, Buu Phan, Jun Chen, Wei Yu, Ashish Khisti
- Abstract要約: 出力が平均二乗誤差(MSE)歪み損失および認識損失を受ける場合の因果的,低レイテンシ,逐次的ビデオ圧縮について検討した。
認識損失関数(PLF)の選択は,特に低ビットレートにおいて,再建に有意な影響を及ぼす可能性が示唆された。
- 参考スコア(独自算出の注目度): 31.865079406929276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study causal, low-latency, sequential video compression when the output is
subjected to both a mean squared-error (MSE) distortion loss as well as a
perception loss to target realism. Motivated by prior approaches, we consider
two different perception loss functions (PLFs). The first, PLF-JD, considers
the joint distribution (JD) of all the video frames up to the current one,
while the second metric, PLF-FMD, considers the framewise marginal
distributions (FMD) between the source and reconstruction. Using information
theoretic analysis and deep-learning based experiments, we demonstrate that the
choice of PLF can have a significant effect on the reconstruction, especially
at low-bit rates. In particular, while the reconstruction based on PLF-JD can
better preserve the temporal correlation across frames, it also imposes a
significant penalty in distortion compared to PLF-FMD and further makes it more
difficult to recover from errors made in the earlier output frames. Although
the choice of PLF decisively affects reconstruction quality, we also
demonstrate that it may not be essential to commit to a particular PLF during
encoding and the choice of PLF can be delegated to the decoder. In particular,
encoded representations generated by training a system to minimize the MSE
(without requiring either PLF) can be {\em near universal} and can generate
close to optimal reconstructions for either choice of PLF at the decoder. We
validate our results using (one-shot) information-theoretic analysis, detailed
study of the rate-distortion-perception tradeoff of the Gauss-Markov source
model as well as deep-learning based experiments on moving MNIST and KTH
datasets.
- Abstract(参考訳): 本研究では,出力が平均二乗誤差(mse)歪み損失とターゲットリアリズムに対する知覚損失の両方を受ける場合の因果的,低遅延,逐次的映像圧縮について検討した。
従来のアプローチにより,2つの異なる知覚損失関数 (PLF) を考える。
第1のPLF-JDは、現在のすべてのビデオフレームの関節分布(JD)を、第2の指標であるPLF-FMDは、ソースと再構築の間のフレーム幅の辺り分布(FMD)を考察する。
情報理論解析と深層学習に基づく実験により, PLFの選択が再建, 特に低ビットレートにおいて有意な影響を及ぼすことを示した。
特に, PLF-JDに基づく再構成は, フレーム間の時間的相関を良好に保ちつつも, PLF-FMDに比べて歪みに顕著なペナルティを課し, 初期の出力フレームでの誤りからの回復を困難にしている。
PLFの選択は復元品質に決定的な影響を及ぼすが、符号化中に特定のPLFにコミットすることが必須ではないことを示し、PLFの選択はデコーダに委譲できることを示した。
特に、MSEを最小化するためにシステムのトレーニングによって生成された符号化表現は(いずれかの PLF も必要とせず)、デコーダでの PLF の選択に対して、ほぼ最適に近い再構成を生成することができる。
我々は,一発的情報理論分析,ガウス・マルコフ源モデルのレート・ディストリクト・パーセプショントレードオフの詳細な研究,移動mnistおよびkthデータセットを用いたディープラーニング実験を用いて,その検証を行った。
関連論文リスト
- Generalizable Non-Line-of-Sight Imaging with Learnable Physical Priors [52.195637608631955]
非視線画像(NLOS)は、その潜在的な応用により注目されている。
既存のNLOS再構成アプローチは、経験的物理的前提に依存して制約される。
本稿では,Learningable Path Compensation(LPC)とAdaptive Phasor Field(APF)の2つの主要な設計を含む,学習に基づく新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-21T04:39:45Z) - Perception-Oriented Video Frame Interpolation via Asymmetric Blending [20.0024308216849]
ビデオフレーム補間(VFI)の従来の手法は、特にぼやけやゴースト効果の顕在化といった問題に直面している。
本稿では,これらの課題を軽減するためにPerVFI(Perception-oriented Video Frame Interpolation)を提案する。
実験により,PerVFIの優位性が検証され,既存の手法に比べて知覚品質が有意に向上した。
論文 参考訳(メタデータ) (2024-04-10T02:40:17Z) - Rate-Distortion-Perception Tradeoff Based on the
Conditional-Distribution Perception Measure [33.084834042565895]
本研究では,大きなブロック長の制限下で,メモリレスソースモデルに対するRDPのトレードオフについて検討する。
我々の知覚尺度は、エンコーダ出力に条件付されたソースの分布と再構成シーケンスのばらつきに基づく。
論文 参考訳(メタデータ) (2024-01-22T18:49:56Z) - Recovering high-quality FODs from a reduced number of diffusion-weighted
images using a model-driven deep learning architecture [0.0]
モデル駆動型深層学習FOD再構成アーキテクチャを提案する。
ネットワークが生成する中間および出力FODが、入力されたDWI信号と一致していることを保証する。
モデルに基づくディープラーニングアーキテクチャは,最先端のFOD超解像ネットワークであるFOD-Netと比較して,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2023-07-28T02:47:34Z) - Unsupervised Representation Learning from Pre-trained Diffusion
Probabilistic Models [83.75414370493289]
拡散確率モデル(DPM)は高品質の画像サンプルを生成する強力な能力を示している。
Diff-AEは自動符号化による表現学習のためのDPMを探索するために提案されている。
我々は、既存のトレーニング済みDPMをデコーダに適応させるために、textbfPre-trained textbfAutotextbfEncoding (textbfPDAE)を提案する。
論文 参考訳(メタデータ) (2022-12-26T02:37:38Z) - DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view
Structure from Motion [9.294501649791016]
動きからの2次元構造(SfM)は3次元再構成と視覚SLAM(vSLAM)の基礎となる。
本稿では,2視点SfM問題を最大最大推定(MLE)として定式化し,DeepMLEと表記されるフレームワークを用いて解いた。
提案手法は,最先端の2ビューSfM手法よりも精度と一般化能力において優れる。
論文 参考訳(メタデータ) (2022-10-11T15:07:25Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Universal Rate-Distortion-Perception Representations for Lossy
Compression [31.28856752892628]
我々は、エンコーダを固定し、デコーダを変更して歪みや知覚制約の集合内の任意の点を達成できる普遍表現の概念を考える。
対応する情報理論の普遍的速度歪曲知覚が、近似的な意味で操作可能であることを証明した。
論文 参考訳(メタデータ) (2021-06-18T18:52:08Z) - 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment
Feedback Loop [128.07841893637337]
回帰に基づく手法は最近、単眼画像からヒトのメッシュを再構成する有望な結果を示した。
パラメータの小さな偏差は、推定メッシュと画像のエビデンスの間に顕著な不一致を引き起こす可能性がある。
本稿では,特徴ピラミッドを活用し,予測パラメータを補正するために,ピラミッドメッシュアライメントフィードバック(pymaf)ループを提案する。
論文 参考訳(メタデータ) (2021-03-30T17:07:49Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z) - Salvage Reusable Samples from Noisy Data for Robust Learning [70.48919625304]
本稿では,Web画像を用いた深部FGモデルのトレーニングにおいて,ラベルノイズに対処するための再利用可能なサンプル選択と修正手法を提案する。
私たちのキーとなるアイデアは、再利用可能なサンプルの追加と修正を行い、それらをクリーンな例とともに活用してネットワークを更新することです。
論文 参考訳(メタデータ) (2020-08-06T02:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。