論文の概要: GeoMag: Geometric-Aware Video Motion Magnification via State Space Model
- arxiv url: http://arxiv.org/abs/2605.29762v1
- Date: Thu, 28 May 2026 11:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.193279
- Title: GeoMag: Geometric-Aware Video Motion Magnification via State Space Model
- Title(参考訳): GeoMag: 状態空間モデルによる幾何学的ビデオモーション・マグニフィケーション
- Authors: Kecheng Han, Yuchen Zhang, Bingqing Liu, Boqiang Guo, Wenbin Zheng, Shiyuan Pei,
- Abstract要約: ビデオモーション・マグニフィケーション(VMM)は、知覚不可能なダイナミクスを明らかにするが、複雑な幾何学的変換の下では構造上の不整合に悩まされることが多い。
既存の学習ベースの手法は、CNNの限られたグローバルコンテキストとトランスフォーマーの計算コストとの間のトレードオフに直面している。
状態空間モデル上に構築された幾何対応VMMフレームワークであるGeoMagを提案する。
- 参考スコア(独自算出の注目度): 4.244933621272842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Motion Magnification (VMM) reveals imperceptible dynamics but often suffers from structural inconsistencies under complex geometric transformations. Existing learning-based methods generally face a trade-off between the limited global context of CNNs and the high computational cost of Transformers. In addition, current training protocols, largely dominated by simple linear motion, fail to capture the geometric and imaging complexities encountered in real-world videos. To address these issues, we propose GeoMag, a geometric-aware VMM framework built upon State Space Models to achieve globally consistent motion amplification with linear complexity. We further construct Geo-200K, a large-scale synthetic dataset that introduces rich geometric transformations together with sensor-realistic degradations, improving the diversity and realism of training signals. Extensive experiments on synthetic and real-world benchmarks show that GeoMag consistently outperforms prior methods in visual fidelity and computational efficiency, while producing fewer artifacts and better structural consistency.
- Abstract(参考訳): ビデオモーション・マグニフィケーション(VMM)は、知覚不可能なダイナミクスを明らかにするが、複雑な幾何学的変換の下では構造上の不整合に悩まされることが多い。
既存の学習ベースの手法は一般的に、CNNの限られたグローバルコンテキストとトランスフォーマーの計算コストとの間のトレードオフに直面している。
加えて、現在のトレーニングプロトコルは、主に単純な線形運動に支配されているが、実世界のビデオで見られる幾何学的・画像的複雑さを捉えられなかった。
このような問題に対処するために,GeoMagを提案する。GeoMagは状態空間モデル上に構築された幾何認識VMMフレームワークで,線形複雑度で一貫した運動増幅を実現する。
さらにGeo-200Kという大規模な合成データセットを構築し、センサ・リアルな劣化とともにリッチな幾何学的変換を導入し、トレーニング信号の多様性とリアリズムを改善した。
人工的および実世界のベンチマークに関する大規模な実験により、GeoMagは視覚的忠実度と計算効率において、従来手法よりも一貫して優れており、アーティファクトは少なく、構造的整合性が良いことが示されている。
関連論文リスト
- MotionScale: Reconstructing Appearance, Geometry, and Motion of Dynamic Scenes with Scalable 4D Gaussian Splatting [54.859943475818234]
MotionScaleは、4Dガウススティングフレームワークで、大きなシーンや拡張シーケンスに効率よくスケールする。
挑戦的な実世界のベンチマークの実験では、MotionScaleは復元品質と時間的安定性の両方において最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2026-03-31T06:03:59Z) - MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - ContactGaussian-WM: Learning Physics-Grounded World Model from Videos [25.368710400385392]
本研究では,複雑な物理法則をスパースやコンタクトリッチなビデオシーケンスから直接学習できる物理地上剛体世界モデルであるContactGaussian-WMを提案する。
大規模シミュレーションと実世界の評価により、ContactGaussian-WMは複雑なシナリオの学習において最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-02-11T16:48:13Z) - Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - GeoVideo: Introducing Geometric Regularization into Video Generation Model [46.38507581500745]
フレームごとの深度予測による潜時拡散モデルの拡大により,ビデオ生成に幾何正則化損失を導入する。
本手法は, 外観生成と3次元構造モデリングのギャップを埋めることにより, 構造的コヒーレンス・時間的形状, 整合性, 物理的妥当性が向上する。
論文 参考訳(メタデータ) (2025-12-03T05:11:57Z) - Epipolar Geometry Improves Video Generation Models [73.44978239787501]
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。
エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。
データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
論文 参考訳(メタデータ) (2025-10-24T16:21:37Z) - Visual Odometry with Transformers [68.453547770334]
特徴抽出により単眼フレームのシーケンスを処理するビジュアル・オドメトリ・トランスフォーマ(VoT)を導入する。
従来の方法とは異なり、VoTは密度の高い幾何学を推定することなくカメラの動きを直接予測し、監視のためにカメラのポーズのみに依存する。
VoTは、より大きなデータセットで効果的にスケールし、より強力なトレーニング済みバックボーンの恩恵を受け、多様なカメラモーションとキャリブレーション設定を一般化し、従来のメソッドよりも3倍以上高速に動作しながらパフォーマンスを向上する。
論文 参考訳(メタデータ) (2025-10-02T17:00:14Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Graph Transformers for inverse physics: reconstructing flows around arbitrary 2D airfoils [0.0]
メッシュ上の一般的な逆物理エンジンとして機能するグラフトランスフォーマーフレームワークを導入する。
本枠組みは,種々の翼の測地に関する定常RANSシミュレーションのデータセットを用いて評価する。
メッシュベースの逆問題における局所的幾何処理と大域的注意機構の相対的重要性に関する実験と知見を提供する。
論文 参考訳(メタデータ) (2025-01-28T17:06:09Z) - GeoDeformer: Geometric Deformable Transformer for Action Recognition [22.536307401874105]
視覚トランスフォーマーは、近年、行動認識のための畳み込みネットワークの効果的な代替品として登場した。
本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。
論文 参考訳(メタデータ) (2023-11-29T16:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。