論文の概要: Space-Time Video Super-resolution with Neural Operator
- arxiv url: http://arxiv.org/abs/2404.06036v1
- Date: Tue, 9 Apr 2024 05:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-10 15:48:59.434288
- Title: Space-Time Video Super-resolution with Neural Operator
- Title(参考訳): ニューラル演算子を用いた時空間ビデオ超解像
- Authors: Yuantong Zhang, Hanyou Zheng, Daiqin Yang, Zhenzhong Chen, Haichuan Ma, Wenpeng Ding,
- Abstract要約: 本稿では,時空ビデオ超解像(ST-MEMVSR)の課題について述べる。
物理インフォームドニューラルネットワークの最近の進歩に触発されて,ST-VSRにおけるMEMCの課題をモデル化した。
提案手法は, 粗粒状連続函数空間における独立な低分解能表現を, 微細粒状連続函数空間における豊富な時間的詳細を持つ洗練された表現に変換する。
- 参考スコア(独自算出の注目度): 36.715371608285025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the task of space-time video super-resolution (ST-VSR). Existing methods generally suffer from inaccurate motion estimation and motion compensation (MEMC) problems for large motions. Inspired by recent progress in physics-informed neural networks, we model the challenges of MEMC in ST-VSR as a mapping between two continuous function spaces. Specifically, our approach transforms independent low-resolution representations in the coarse-grained continuous function space into refined representations with enriched spatiotemporal details in the fine-grained continuous function space. To achieve efficient and accurate MEMC, we design a Galerkin-type attention function to perform frame alignment and temporal interpolation. Due to the linear complexity of the Galerkin-type attention mechanism, our model avoids patch partitioning and offers global receptive fields, enabling precise estimation of large motions. The experimental results show that the proposed method surpasses state-of-the-art techniques in both fixed-size and continuous space-time video super-resolution tasks.
- Abstract(参考訳): 本稿では,時空ビデオ超解像(ST-VSR)の課題について述べる。
既存の手法は一般に、大きな動きに対する不正確な動き推定と動き補償(MEMC)の問題に悩まされる。
物理インフォームドニューラルネットワークの最近の進歩に触発されて、ST-VSRにおけるMEMCの課題を、2つの連続関数空間間のマッピングとしてモデル化する。
具体的には、粗粒状連続函数空間における独立な低分解能表現を、微細粒状連続函数空間における高密度な時空間の詳細を持つ洗練された表現に変換する。
効率的かつ正確なMEMCを実現するために,フレームアライメントと時間補間を行うガレルキン型アテンション関数を設計する。
ガレルキン型アテンション機構の線形複雑さのため、我々のモデルはパッチ分割を回避し、大域的受容場を提供し、大きな動きの正確な推定を可能にする。
実験の結果,提案手法は固定サイズおよび連続時空ビデオ超解像処理における最先端技術を上回ることがわかった。
関連論文リスト
- Event-based Visual Deformation Measurement [76.25283405575108]
視覚的変形測定は、カメラ観測から表面の動きを追跡することによって、高密度な変形場を復元することを目的としている。
従来の画像ベースの手法は、対応検索空間を制限するため、最小限のフレーム間動作に依存している。
本研究では,時間的に密集した動きキューやフレームのイベントを利用して,空間的に密集した正確な推定を行うイベントフレーム融合フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T01:04:48Z) - FunPhase: A Periodic Functional Autoencoder for Motion Generation via Phase Manifolds [2.6041136107390037]
動作の位相多様体を学習し、離散時間デコーディングを関数空間の定式化に置き換える機能周期型オートエンコーダFunPhaseを紹介する。
FunPhaseは、超分解能や部分体モーション補完などの下流タスクをサポートし、スケルトンとデータセットをまたいで一般化し、単一の解釈可能な多様体内でのモーション予測と生成を統一する。
論文 参考訳(メタデータ) (2025-12-10T08:46:53Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - SAMPO:Scale-wise Autoregression with Motion PrOmpt for generative world models [42.814012901180774]
textbfSAMPOは、フレーム内生成のための視覚的自己回帰モデリングと、次のフレーム生成のための因果モデリングを組み合わせたハイブリッドフレームワークである。
動作条件付きビデオ予測とモデルベース制御において,SAMPOが競合性能を発揮することを示す。
また、SAMPOのゼロショット一般化とスケーリング挙動を評価し、未知のタスクに一般化する能力を示す。
論文 参考訳(メタデータ) (2025-09-19T02:41:37Z) - Holistic Surgical Phase Recognition with Hierarchical Input Dependent State Space Models [56.2236083600999]
手術映像解析のための階層型入力依存状態空間モデルを提案する。
本フレームワークは,時間的一貫した視覚特徴抽出器を内蔵し,状態空間モデルヘッドを視覚特徴抽出器に付加し,時間的情報を伝達する。
実験により,本手法は最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2025-06-26T14:43:57Z) - EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation [59.33052312107478]
イベントカメラは、シーン変化に対する連続的適応ピクセルレベル応答による3次元モーション推定の可能性を提供する。
本稿では,イベント誘導パラメトリック曲線を用いた一様軌道をモデル化するイベントベースフレームワークであるEMoveについて述べる。
動作表現には,事象誘導下での空間的特徴と時間的特徴を融合する密度認識適応機構を導入する。
最終3次元運動推定は、パラメトリック軌道、流れ、深度運動場の多時間サンプリングによって達成される。
論文 参考訳(メタデータ) (2025-03-14T13:15:54Z) - Lagrangian Motion Fields for Long-term Motion Generation [51.02126882968116]
本稿では,ラグランジアン運動場の概念について紹介する。
各関節を短い間隔で一様速度でラグランジアン粒子として扱うことにより、我々のアプローチは運動表現を一連の「超運動」に凝縮する。
私たちのソリューションは万能で軽量で、ニューラルネットワークの前処理の必要性を排除しています。
論文 参考訳(メタデータ) (2024-09-03T01:38:06Z) - Surgformer: Surgical Transformer with Hierarchical Temporal Attention for Surgical Phase Recognition [7.682613953680041]
本稿では,空間時間モデルと冗長性の問題に終末的に対処する手術用トランスフォーマー(サージフォーマー)を提案する。
提案するサージフォーマーは,最先端の手法に対して良好に機能することを示す。
論文 参考訳(メタデータ) (2024-08-07T16:16:31Z) - Multiscale Motion-Aware and Spatial-Temporal-Channel Contextual Coding
Network for Learned Video Compression [24.228981098990726]
動画圧縮ネットワーク(MASTC-VC)を提案する。
提案するMASTC-VCは,3つの公開ベンチマークデータセット上での従来の最先端(SOTA)手法よりも優れている。
提案手法は,PSNRのH.265/HEVC(HM-16.20)に対して平均10.15%のBDレートを,MS-SSIMのH.266/VVC(VTM-13.2)に対して平均23.93%のBDレートを節約する。
論文 参考訳(メタデータ) (2023-10-19T13:32:38Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Enhancing Space-time Video Super-resolution via Spatial-temporal Feature
Interaction [9.456643513690633]
時空ビデオ超解像(STVSR)の目的は、ビデオのフレームレートと空間解像度の両方を増加させることである。
近年のアプローチでは、エンドツーエンドのディープニューラルネットワークを用いてSTVSRを解く。
本研究では,空間的・時間的相関を利用してSTVSRを強化する空間的・時間的特徴相互作用ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-18T22:10:57Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - MEGAN: Memory Enhanced Graph Attention Network for Space-Time Video
Super-Resolution [8.111645835455658]
時空ビデオスーパー解像度(STVSR)は、対応する低フレームレートの低解像度ビデオシーケンスから高解像度ビデオシーケンスを構築することを目的としている。
近年の時空超解像における時空間情報の考察の成功に触発されて,本研究の主な目的は空間的・時空間的相関を十分に考慮することである。
論文 参考訳(メタデータ) (2021-10-28T17:37:07Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。