論文の概要: Unfolding Framework with Prior of Convolution-Transformer Mixture and
Uncertainty Estimation for Video Snapshot Compressive Imaging
- arxiv url: http://arxiv.org/abs/2306.11316v1
- Date: Tue, 20 Jun 2023 06:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:21:44.008826
- Title: Unfolding Framework with Prior of Convolution-Transformer Mixture and
Uncertainty Estimation for Video Snapshot Compressive Imaging
- Title(参考訳): コンボリューション・トランスフォーマ混合前の展開枠組みと映像スナップショット圧縮画像における不確実性推定
- Authors: Siming Zheng and Xin Yuan
- Abstract要約: 本稿では, 連続する高速フレームを異なるマスクで変調し, 単一の計測でキャプチャする, ビデオスナップショット圧縮画像(SCI)の問題点について考察する。
最適化アルゴリズムとニューラルネットワークを組み合わせることで、ディープ・アンフォールディング・ネットワーク(DUN)は、逆問題の解決において大きな成果を上げた。
- 参考スコア(独自算出の注目度): 7.601695814245209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of video snapshot compressive imaging (SCI), where
sequential high-speed frames are modulated by different masks and captured by a
single measurement. The underlying principle of reconstructing multi-frame
images from only one single measurement is to solve an ill-posed problem. By
combining optimization algorithms and neural networks, deep unfolding networks
(DUNs) score tremendous achievements in solving inverse problems. In this
paper, our proposed model is under the DUN framework and we propose a 3D
Convolution-Transformer Mixture (CTM) module with a 3D efficient and scalable
attention model plugged in, which helps fully learn the correlation between
temporal and spatial dimensions by virtue of Transformer. To our best
knowledge, this is the first time that Transformer is employed to video SCI
reconstruction. Besides, to further investigate the high-frequency information
during the reconstruction process which are neglected in previous studies, we
introduce variance estimation characterizing the uncertainty on a
pixel-by-pixel basis. Extensive experimental results demonstrate that our
proposed method achieves state-of-the-art (SOTA) (with a 1.2dB gain in PSNR
over previous SOTA algorithm) results. We will release the code.
- Abstract(参考訳): 本研究では,連続的な高速フレームを異なるマスクで変調し,単一の計測でキャプチャする映像スナップショット圧縮イメージング(sci)の問題を考える。
単一の測定値から複数フレーム画像を再構成するという基本的な原理は、不適切な問題を解決することである。
最適化アルゴリズムとニューラルネットワークを組み合わせることで、ディープ・アンフォールディング・ネットワーク(duns)は逆問題を解く上で大きな成果を上げた。
本稿では,提案するモデルがdunフレームワークのもとにあり,トランスフォーマによる時間次元と空間次元の相関を十分に理解する3次元コンボリューション・トランスフォーマ混合(ctm)モジュールを提案する。
われわれの知る限り、TransformerがビデオSCI再構成に採用されたのはこれが初めてだ。
また,先行研究で無視された復元過程における高周波情報についてさらに検討するため,画素単位の不確かさを特徴付ける分散推定を導入する。
実験の結果,提案手法は従来のSOTAアルゴリズムよりも1.2dBのPSNR(State-of-the-art)が得られることがわかった。
コードをリリースします。
関連論文リスト
- Efficient One-Step Diffusion Refinement for Snapshot Compressive Imaging [8.819370643243012]
Coded Aperture Snapshot Spectral Imaging (CASSI)は3次元マルチスペクトル画像(MSI)を撮影するための重要な技術である
現在の最先端の手法は、主にエンドツーエンドであり、高周波の詳細を再構築する際の制限に直面している。
本稿では,Snapshot Compressive Imagingのための自己教師型適応フレームワークにおいて,新しい1段階拡散確率モデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T17:02:10Z) - Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。
粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。
我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-18T15:15:12Z) - Plug-and-Play Regularization on Magnitude with Deep Priors for 3D Near-Field MIMO Imaging [0.0]
近接場レーダイメージングシステムは、隠蔽兵器の検出や医療診断など、幅広い用途で使用されている。
3次元複素数値反射率の問題は、その大きさに対して正則化を強制することによるものである。
論文 参考訳(メタデータ) (2023-12-26T12:25:09Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral
Compressive Imaging [142.11622043078867]
圧縮画像と物理マスクからパラメータを推定し,これらのパラメータを用いて各イテレーションを制御する,DAUF(Degradation-Aware Unfolding Framework)を提案する。
HST を DAUF に接続することにより,HSI 再構成のための変換器の深部展開法であるデグレーション・アウェア・アンフォールディング・ハーフシャッフル変換器 (DAUHST) を確立した。
論文 参考訳(メタデータ) (2022-05-20T11:37:44Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation [18.14237514372724]
RGBビデオから3次元のポーズとメッシュを生成する新しいフレームワークを提案する。
SMPLパラメータを予測するために,トランスフォーマーに基づく2ストリーム時間ネットワークを訓練する。
提案アルゴリズムは,Human3.6と3DPWのデータセットで広く評価されている。
論文 参考訳(メタデータ) (2021-10-22T10:01:13Z) - Dense Deep Unfolding Network with 3D-CNN Prior for Snapshot Compressive
Imaging [6.289143409131908]
スナップショットイメージング(SCI)は、二次元カメラを介して3次元信号を記録することを目的としている。
SCI に先立って 3D-CNN を付加した新しい深層展開ネットワーク (DUN) を提案する。
ネットワーク適応を促進するために,高密度特徴写像圧縮 (DFMA) モジュールを提案する。
論文 参考訳(メタデータ) (2021-09-14T09:42:42Z) - Learning a Model-Driven Variational Network for Deformable Image
Registration [89.9830129923847]
VR-Netは、教師なしの変形可能な画像登録のための新しいカスケード可変ネットワークである。
登録精度において最先端のディープラーニング手法よりも優れています。
ディープラーニングの高速推論速度と変分モデルのデータ効率を維持している。
論文 参考訳(メタデータ) (2021-05-25T21:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。