論文の概要: Generative Spatiotemporal Data Augmentation
- arxiv url: http://arxiv.org/abs/2512.12508v1
- Date: Sun, 14 Dec 2025 01:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.291411
- Title: Generative Spatiotemporal Data Augmentation
- Title(参考訳): 生成時空間データ拡張
- Authors: Jinfan Zhou, Lixin Luo, Sungmin Eum, Heesung Kwon, Jeong Joon Park,
- Abstract要約: 映像基盤モデルを用いて、画像データセットからリアルな3次元空間的・時間的変動を生成する。
合成ビデオクリップを補足データとして組み込むことで、低データ設定で一貫したパフォーマンス向上が得られる。
- 参考スコア(独自算出の注目度): 12.849046721804797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore spatiotemporal data augmentation using video foundation models to diversify both camera viewpoints and scene dynamics. Unlike existing approaches based on simple geometric transforms or appearance perturbations, our method leverages off-the-shelf video diffusion models to generate realistic 3D spatial and temporal variations from a given image dataset. Incorporating these synthesized video clips as supplemental training data yields consistent performance gains in low-data settings, such as UAV-captured imagery where annotations are scarce. Beyond empirical improvements, we provide practical guidelines for (i) choosing an appropriate spatiotemporal generative setup, (ii) transferring annotations to synthetic frames, and (iii) addressing disocclusion - regions newly revealed and unlabeled in generated views. Experiments on COCO subsets and UAV-captured datasets show that, when applied judiciously, spatiotemporal augmentation broadens the data distribution along axes underrepresented by traditional and prior generative methods, offering an effective lever for improving model performance in data-scarce regimes.
- Abstract(参考訳): 本稿では,映像基盤モデルを用いた時空間データ拡張について検討し,カメラ視点とシーンダイナミックスの両方を多様化させる。
簡単な幾何学的変換や外観摂動に基づく既存手法とは異なり,本手法は市販のビデオ拡散モデルを利用して,与えられた画像データセットから実空間的・時間的変動を生成する。
これらの合成ビデオクリップを補足訓練データとして組み込むことで、アノテーションが不足しているUAVキャプチャ画像のような低データ設定で一貫したパフォーマンス向上が得られる。
実証的な改善だけでなく、実践的なガイドラインも提供します。
一 適切な時空間生成装置を選択すること。
(ii)注釈を合成フレームに転送し、
(三)排他的扱い-生成されたビューで新たに公表され、ラベル付けされていない領域。
COCOサブセットとUAVキャプチャーデータセットの実験により、仮に適用された時空間拡大は、従来の生成法や以前の生成法で表現されていない軸に沿ったデータ分布を拡大し、データスカース方式のモデル性能を改善する効果的なレバーを提供する。
関連論文リスト
- SPIRAL: Semantic-Aware Progressive LiDAR Scene Generation and Understanding [25.20103686487509]
Spiralは、深度、反射率の画像、セマンティックマップを同時に生成する新しいレンジビューLiDAR拡散モデルである。
Semantic KITTIとnuScenesデータセットの実験は、Spralが最小のパラメータサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-28T17:55:35Z) - Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - Fast LiDAR Upsampling using Conditional Diffusion Models [1.3709133749179265]
既存の手法は拡散モデルを用いて高忠実度で洗練されたLiDARデータを生成する可能性を示している。
高速かつ高品質な3次元シーンポイント雲のスパース・ツー・デンスアップサンプリングのための条件拡散モデルに基づく新しいアプローチを提案する。
本手法では,条件付き塗装マスクを用いて訓練した拡散確率モデルを用いて,画像補完タスクの性能向上を図っている。
論文 参考訳(メタデータ) (2024-05-08T08:38:28Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。