論文の概要: M3DDM+: An improved video outpainting by a modified masking strategy
- arxiv url: http://arxiv.org/abs/2601.11048v1
- Date: Fri, 16 Jan 2026 07:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.396041
- Title: M3DDM+: An improved video outpainting by a modified masking strategy
- Title(参考訳): M3DDM+:改良型マスキング戦略による映像の画質向上
- Authors: Takuya Murakawa, Takumi Fukuzawa, Ning Ding, Toru Tamaki,
- Abstract要約: M3DDM(M3DDM)は、潜時拡散モデリングによる映像の画質向上のためのフレームワークである。
カメラの動きに制限があるのが特徴の課題である。
トレーニング中に全フレームに均一なマスク方向と幅を適用したM3DDM+を提案する。
- 参考スコア(独自算出の注目度): 6.9410565493998675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: M3DDM provides a computationally efficient framework for video outpainting via latent diffusion modeling. However, it exhibits significant quality degradation -- manifested as spatial blur and temporal inconsistency -- under challenging scenarios characterized by limited camera motion or large outpainting regions, where inter-frame information is limited. We identify the cause as a training-inference mismatch in the masking strategy: M3DDM's training applies random mask directions and widths across frames, whereas inference requires consistent directional outpainting throughout the video. To address this, we propose M3DDM+, which applies uniform mask direction and width across all frames during training, followed by fine-tuning of the pretrained M3DDM model. Experiments demonstrate that M3DDM+ substantially improves visual fidelity and temporal coherence in information-limited scenarios while maintaining computational efficiency. The code is available at https://github.com/tamaki-lab/M3DDM-Plus.
- Abstract(参考訳): M3DDMは、潜時拡散モデリングによる映像の画質向上のための計算効率の良いフレームワークを提供する。
しかし、フレーム間の情報に制限があるカメラの動きや大きな外見が特徴の難易度シナリオでは、空間的ぼかしと時間的不整合として現れる、大幅な品質劣化を示す。
M3DDMのトレーニングでは、ランダムなマスクの方向とフレーム間の幅が適用され、一方、推論では、ビデオ全体を通して一貫した方向変化が要求される。
そこで本研究では,トレーニング中に全フレームに均一なマスク方向と幅を適用したM3DDM+を提案する。
実験により、M3DDM+は、計算効率を保ちながら、情報制限シナリオにおける視覚的忠実度と時間的コヒーレンスを大幅に改善することが示された。
コードはhttps://github.com/tamaki-lab/M3DDM-Plus.comで入手できる。
関連論文リスト
- Hierarchical Masked 3D Diffusion Model for Video Outpainting [20.738731220322176]
映像出力のためのマスク付き3次元拡散モデルを提案する。
これにより、複数のビデオクリップ推論の結果を接続するために、複数のガイドフレームを使用することができます。
また, アーティファクトの蓄積問題を緩和するために, 粗大から粗大の推論パイプラインも導入する。
論文 参考訳(メタデータ) (2023-09-05T10:52:21Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z) - GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds [72.60362979456035]
Masked Autoencoders (MAE)は、大規模な3Dポイントクラウドでの探索が難しい。
我々は,周囲のコンテキストを自動的にマージするためのtextbfGenerative textbfDecoder for MAE (GD-MAE)を提案する。
提案手法の有効性を, KITTI と ONCE の2つの大規模ベンチマークで実証した。
論文 参考訳(メタデータ) (2022-12-06T14:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。