論文の概要: DIFFUMA: High-Fidelity Spatio-Temporal Video Prediction via Dual-Path Mamba and Diffusion Enhancement
- arxiv url: http://arxiv.org/abs/2507.06738v1
- Date: Wed, 09 Jul 2025 10:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.556912
- Title: DIFFUMA: High-Fidelity Spatio-Temporal Video Prediction via Dual-Path Mamba and Diffusion Enhancement
- Title(参考訳): DIFFUMA:Dual-Path Mambaによる高忠実度時空間映像予測と拡散促進
- Authors: Xinyu Xie, Weifeng Cao, Jun Shi, Yangyang Hu, Hui Liang, Wanyong Liang, Xiaoliang Qian,
- Abstract要約: 我々は,半導体ウェハダイシングプロセスに特化した最初の公開時空間画像データセットであるChip Dicing Laneデータセット(CHDL)をリリースする。
このような微細なダイナミクスに特化して設計された、革新的なデュアルパス予測アーキテクチャであるDIFFUMAを提案する。
実験の結果、DIFFUMAは既存の手法よりも優れており、平均二乗誤差(MSE)を39%削減し、類似性(SSIM)を0.926から0.988に改善した。
- 参考スコア(独自算出の注目度): 5.333662480077316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal video prediction plays a pivotal role in critical domains, ranging from weather forecasting to industrial automation. However, in high-precision industrial scenarios such as semiconductor manufacturing, the absence of specialized benchmark datasets severely hampers research on modeling and predicting complex processes. To address this challenge, we make a twofold contribution.First, we construct and release the Chip Dicing Lane Dataset (CHDL), the first public temporal image dataset dedicated to the semiconductor wafer dicing process. Captured via an industrial-grade vision system, CHDL provides a much-needed and challenging benchmark for high-fidelity process modeling, defect detection, and digital twin development.Second, we propose DIFFUMA, an innovative dual-path prediction architecture specifically designed for such fine-grained dynamics. The model captures global long-range temporal context through a parallel Mamba module, while simultaneously leveraging a diffusion module, guided by temporal features, to restore and enhance fine-grained spatial details, effectively combating feature degradation. Experiments demonstrate that on our CHDL benchmark, DIFFUMA significantly outperforms existing methods, reducing the Mean Squared Error (MSE) by 39% and improving the Structural Similarity (SSIM) from 0.926 to a near-perfect 0.988. This superior performance also generalizes to natural phenomena datasets. Our work not only delivers a new state-of-the-art (SOTA) model but, more importantly, provides the community with an invaluable data resource to drive future research in industrial AI.
- Abstract(参考訳): 時空間ビデオ予測は、天気予報から産業自動化まで、重要な領域において重要な役割を果たす。
しかし、半導体製造のような高精度な工業シナリオでは、複雑なプロセスのモデリングと予測に関する特別なベンチマークデータセットが欠如している。
この課題に対処するために、我々は2つのコントリビューションを行う。まず、半導体ウェハダイシングプロセス専用の最初の公開時間画像データセットであるChip Dicing Lane Dataset(CHDL)を構築し、リリースする。
産業グレードのビジョンシステムを通じて取得したCHDLは、高忠実度プロセスモデリング、欠陥検出、デジタル双対開発のための、非常に重要かつ困難なベンチマークを提供する。
このモデルは、並列なMambaモジュールを通じてグローバルな長距離時間コンテキストをキャプチャし、同時に時間的特徴によって導かれる拡散モジュールを活用して、きめ細かい空間的詳細を復元・拡張し、特徴劣化と効果的に戦う。
実験の結果,DIFFUMAはCHDLベンチマークにおいて既存の手法よりも優れており,平均二乗誤差(MSE)を39%削減し,構造類似度(SSIM)を0.926から0.988に改善した。
この優れた性能は自然現象データセットにも一般化される。
我々の研究は、新しい最先端(SOTA)モデルを提供するだけでなく、より重要なのは、産業AIにおける将来の研究を促進するために、コミュニティに貴重なデータリソースを提供することです。
関連論文リスト
- SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - LSM-2: Learning from Incomplete Wearable Sensor Data [65.58595667477505]
本稿では,Adaptive and Inherited Masking (AIM)を用いた第2世代Large Sensor Model (LSM-2)を紹介する。
AIMは明示的な計算を必要とせず、不完全なデータから直接堅牢な表現を学習する。
AIMを用いた LSM-2 は, 分類, 回帰, 生成モデルなど, 多様なタスクにまたがる最高の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T17:57:11Z) - Remaining Useful Life Prediction: A Study on Multidimensional Industrial Signal Processing and Efficient Transfer Learning Based on Large Language Models [6.118896920507198]
本稿では,大言語モデル(LLM)をRUL予測に用いる革新的な回帰フレームワークを提案する。
ターボファンエンジンのRUL予測タスクの実験では、提案モデルが最先端(SOTA)法を超越していることが示されている。
微調整のための最小限のターゲットドメインデータでは、モデルは完全なターゲットドメインデータに基づいて訓練されたSOTAメソッドよりも優れている。
論文 参考訳(メタデータ) (2024-10-04T04:21:53Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Fuxi-DA: A Generalized Deep Learning Data Assimilation Framework for Assimilating Satellite Observations [15.934673617658609]
ディープラーニングモデルは、世界中のトップNWPモデルのマッチング、さらには予測精度を超越する可能性を示している。
本研究は、衛星観測を同化するための一般化されたDLベースのDAフレームワークであるFuxiDAを紹介する。
Fengyun-4Bに搭載されたAdvanced Geosynchronous Radiation Imager(AGRI)のデータを同調することにより、FuXi-DAは解析誤差を一貫して軽減し、予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-04-12T15:02:14Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Enhanced LFTSformer: A Novel Long-Term Financial Time Series Prediction Model Using Advanced Feature Engineering and the DS Encoder Informer Architecture [0.8532753451809455]
本研究では,拡張LFTSformerと呼ばれる長期金融時系列の予測モデルを提案する。
このモデルは、いくつかの重要なイノベーションを通じて、自分自身を区別する。
さまざまなベンチマークストックマーケットデータセットに関するシステマティックな実験は、強化LFTSformerが従来の機械学習モデルより優れていることを示している。
論文 参考訳(メタデータ) (2023-10-03T08:37:21Z) - Perceiver-based CDF Modeling for Time Series Forecasting [25.26713741799865]
本稿では,時系列データの累積分布関数(CDF)をモデル化するための新しいアーキテクチャであるPerceiver-CDFを提案する。
提案手法は,マルチモーダル時系列予測に適したコプラに基づくアテンション機構と,知覚アーキテクチャを組み合わせたものである。
単調かつマルチモーダルなベンチマークの実験は、最先端の手法よりも20%改善されていることを一貫して示している。
論文 参考訳(メタデータ) (2023-10-03T01:13:17Z) - Enhanced multi-fidelity modelling for digital twin and uncertainty
quantification [0.0]
データ駆動モデルは、リアルタイムのアップデートと予測を可能にするデジタルツインにおいて重要な役割を果たす。
利用可能なデータの忠実さと正確なセンサーデータの不足は、しばしば代理モデルの効率的な学習を妨げる。
本稿では,ロバストなマルチフィデリティ・サロゲートモデルの開発から始まる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-26T05:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。