Fugu-MT 論文翻訳(概要): Deformable 3D Convolution for Video Super-Resolution

論文の概要: Deformable 3D Convolution for Video Super-Resolution

arxiv url: http://arxiv.org/abs/2004.02803v5
Date: Sat, 15 Aug 2020 14:45:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 07:14:00.354482
Title: Deformable 3D Convolution for Video Super-Resolution
Title（参考訳）: ビデオ超解像のための変形可能な3次元畳み込み
Authors: Xinyi Ying, Longguang Wang, Yingqian Wang, Weidong Sheng, Wei An, Yulan Guo
Abstract要約: 空間情報と時間情報を組み込んだ変形可能な3次元畳み込みネットワーク(D3D)を提案する。空間時間情報を利用したD3Dの有効性を実験により実証した。
参考スコア（独自算出の注目度）: 45.644774416293565
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The spatio-temporal information among video sequences is significant for video super-resolution (SR). However, the spatio-temporal information cannot be fully used by existing video SR methods since spatial feature extraction and temporal motion compensation are usually performed sequentially. In this paper, we propose a deformable 3D convolution network (D3Dnet) to incorporate spatio-temporal information from both spatial and temporal dimensions for video SR. Specifically, we introduce deformable 3D convolution (D3D) to integrate deformable convolution with 3D convolution, obtaining both superior spatio-temporal modeling capability and motion-aware modeling flexibility. Extensive experiments have demonstrated the effectiveness of D3D in exploiting spatio-temporal information. Comparative results show that our network achieves state-of-the-art SR performance. Code is available at: https://github.com/XinyiYing/D3Dnet.
Abstract（参考訳）: ビデオシーケンス間の時空間情報はビデオスーパーレゾリューション(sr)において重要である。しかし,空間的特徴抽出と時間的動き補償が連続的に行われるため,既存のビデオsr法では時空間情報を完全に利用することはできない。本稿では,ビデオSRにおける空間次元と時間次元の両方から時空間情報を組み込む変形可能な3D畳み込みネットワーク(D3Dnet)を提案する。具体的には,変形可能な畳み込みと3次元畳み込みを統合するために変形可能な3次元畳み込み(d3d)を導入する。広汎な実験により、時空間情報を利用したD3Dの有効性が示された。比較の結果,ネットワークは最先端sr性能を達成していることがわかった。コードはhttps://github.com/xinyiying/d3dnet。

関連論文リスト

Bridging Diffusion Models and 3D Representations: A 3D Consistent Super-Resolution Framework [53.251525710625096]
3次元超解像(3DSR) 新しい3Dガウス平滑型超解像フレームワーク。 MipNeRF360およびLLFFデータを用いた3DSRの評価を行った。
論文参考訳（メタデータ） (2025-08-06T05:12:02Z)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。 VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳（メタデータ） (2025-05-26T17:56:30Z)
EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文参考訳（メタデータ） (2025-03-26T02:47:27Z)
Seeing World Dynamics in a Nutshell [132.79736435144403]
NutWorldはモノクロ動画をダイナミックな3D表現に変換するフレームワークである。我々は,NutWorldがリアルタイムにダウンストリームアプリケーションを実現しつつ,高忠実度ビデオ再構成品質を実現することを実証した。
論文参考訳（メタデータ） (2025-02-05T18:59:52Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。 3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文参考訳（メタデータ） (2024-03-18T17:54:34Z)
SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion [33.69006364120861]
安定ビデオ3D(SV3D) - 3Dオブジェクトの周囲の高解像度・画像・マルチビュー生成のための潜時ビデオ拡散モデルを提案する。
論文参考訳（メタデータ） (2024-03-18T17:46:06Z)
An intuitive multi-frequency feature representation for SO(3)-equivariant networks [9.092163300680832]
本稿では,高次元特徴空間に3次元点をマッピングするための同変特徴表現を提案する。我々の表現はVNへの入力として使用することができ、その結果、我々の特徴表現により、VNはより詳細をキャプチャすることを示した。
論文参考訳（メタデータ） (2024-03-15T11:36:50Z)
SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network [1.4732811715354455]
SpATr(Spiral Auto-Encoder and Transformer Network)と呼ばれる3次元動作認識のための新しいアプローチを提案する。スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。提案手法は,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
論文参考訳（メタデータ） (2023-06-30T11:49:00Z)
Spatio-temporal Self-Supervised Representation Learning for 3D Point Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。 STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文参考訳（メタデータ） (2021-09-01T04:17:11Z)
Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文参考訳（メタデータ） (2021-08-24T12:52:47Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)
Appearance-Preserving 3D Convolution for Video-based Person Re-identification [61.677153482995564]
本稿では,APM (Appearance-Preserving Module) と3Dコンボリューションカーネルの2つのコンポーネントからなる3Dコンボリューション(AP3D)を提案する。元の3D畳み込みカーネルをAP3Dに置き換えることで、AP3Dと既存の3D ConvNetを組み合わせることは容易である。
論文参考訳（メタデータ） (2020-07-16T16:21:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。