論文の概要: Deformable 3D Convolution for Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2004.02803v5
- Date: Sat, 15 Aug 2020 14:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 07:14:00.354482
- Title: Deformable 3D Convolution for Video Super-Resolution
- Title(参考訳): ビデオ超解像のための変形可能な3次元畳み込み
- Authors: Xinyi Ying, Longguang Wang, Yingqian Wang, Weidong Sheng, Wei An,
Yulan Guo
- Abstract要約: 空間情報と時間情報を組み込んだ変形可能な3次元畳み込みネットワーク(D3D)を提案する。
空間時間情報を利用したD3Dの有効性を実験により実証した。
- 参考スコア(独自算出の注目度): 45.644774416293565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The spatio-temporal information among video sequences is significant for
video super-resolution (SR). However, the spatio-temporal information cannot be
fully used by existing video SR methods since spatial feature extraction and
temporal motion compensation are usually performed sequentially. In this paper,
we propose a deformable 3D convolution network (D3Dnet) to incorporate
spatio-temporal information from both spatial and temporal dimensions for video
SR. Specifically, we introduce deformable 3D convolution (D3D) to integrate
deformable convolution with 3D convolution, obtaining both superior
spatio-temporal modeling capability and motion-aware modeling flexibility.
Extensive experiments have demonstrated the effectiveness of D3D in exploiting
spatio-temporal information. Comparative results show that our network achieves
state-of-the-art SR performance. Code is available at:
https://github.com/XinyiYing/D3Dnet.
- Abstract(参考訳): ビデオシーケンス間の時空間情報はビデオスーパーレゾリューション(sr)において重要である。
しかし,空間的特徴抽出と時間的動き補償が連続的に行われるため,既存のビデオsr法では時空間情報を完全に利用することはできない。
本稿では,ビデオSRにおける空間次元と時間次元の両方から時空間情報を組み込む変形可能な3D畳み込みネットワーク(D3Dnet)を提案する。
具体的には,変形可能な畳み込みと3次元畳み込みを統合するために変形可能な3次元畳み込み(d3d)を導入する。
広汎な実験により、時空間情報を利用したD3Dの有効性が示された。
比較の結果,ネットワークは最先端sr性能を達成していることがわかった。
コードはhttps://github.com/xinyiying/d3dnet。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion [33.69006364120861]
安定ビデオ3D(SV3D) - 3Dオブジェクトの周囲の高解像度・画像・マルチビュー生成のための潜時ビデオ拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T17:46:06Z) - An intuitive multi-frequency feature representation for SO(3)-equivariant networks [9.092163300680832]
本稿では,高次元特徴空間に3次元点をマッピングするための同変特徴表現を提案する。
我々の表現はVNへの入力として使用することができ、その結果、我々の特徴表現により、VNはより詳細をキャプチャすることを示した。
論文 参考訳(メタデータ) (2024-03-15T11:36:50Z) - SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network [1.4732811715354455]
SpATr(Spiral Auto-Encoder and Transformer Network)と呼ばれる3次元動作認識のための新しいアプローチを提案する。
スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。
提案手法は,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-06-30T11:49:00Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Appearance-Preserving 3D Convolution for Video-based Person
Re-identification [61.677153482995564]
本稿では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネルの2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。
元の3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
論文 参考訳(メタデータ) (2020-07-16T16:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。