Fugu-MT 論文翻訳(概要): S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces

論文の概要: S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces

arxiv url: http://arxiv.org/abs/2210.06583v2
Date: Fri, 14 Oct 2022 03:55:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 12:33:17.600459
Title: S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces
Title（参考訳）: s4nd: 状態空間を用いた多次元信号としての映像と映像のモデリング
Authors: Eric Nguyen, Karan Goel, Albert Gu, Gordon W. Downs, Preey Shah, Tri Dao, Stephen A. Baccus, Christopher R\'e
Abstract要約: S4NDは,連続多次元信号として1ドル,2ドル,3ドルで大規模視覚データをモデル化できることを示す。 ImageNet-1kでは、S4NDはVision Transformerベースラインのパフォーマンスを1.5%上回る。ビデオの場合、S4NDはHMDB-51のアクティビティ分類で3ドル(約3,300円)のConvNeXtを4%値下げした。
参考スコア（独自算出の注目度）: 31.797315037365983
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual data such as images and videos are typically modeled as discretizations of inherently continuous, multidimensional signals. Existing continuous-signal models attempt to exploit this fact by modeling the underlying signals of visual (e.g., image) data directly. However, these models have not yet been able to achieve competitive performance on practical vision tasks such as large-scale image and video classification. Building on a recent line of work on deep state space models (SSMs), we propose S4ND, a new multidimensional SSM layer that extends the continuous-signal modeling ability of SSMs to multidimensional data including images and videos. We show that S4ND can model large-scale visual data in $1$D, $2$D, and $3$D as continuous multidimensional signals and demonstrates strong performance by simply swapping Conv2D and self-attention layers with S4ND layers in existing state-of-the-art models. On ImageNet-1k, S4ND exceeds the performance of a Vision Transformer baseline by $1.5\%$ when training with a $1$D sequence of patches, and matches ConvNeXt when modeling images in $2$D. For videos, S4ND improves on an inflated $3$D ConvNeXt in activity classification on HMDB-51 by $4\%$. S4ND implicitly learns global, continuous convolutional kernels that are resolution invariant by construction, providing an inductive bias that enables generalization across multiple resolutions. By developing a simple bandlimiting modification to S4 to overcome aliasing, S4ND achieves strong zero-shot (unseen at training time) resolution performance, outperforming a baseline Conv2D by $40\%$ on CIFAR-10 when trained on $8 \times 8$ and tested on $32 \times 32$ images. When trained with progressive resizing, S4ND comes within $\sim 1\%$ of a high-resolution model while training $22\%$ faster.
Abstract（参考訳）: 画像やビデオなどの視覚データは、本質的に連続した多次元信号の離散化としてモデル化される。既存の連続信号モデルは、視覚データ(例えば画像)の信号を直接モデル化することで、この事実を活用しようとする。しかし、これらのモデルは、大規模な画像分類やビデオ分類のような実用的な視覚タスクにおいて、まだ競争力のある性能を達成できていない。近年の深部状態空間モデル(deep state space model, ssms)の研究成果を基に,画像や映像を含む多次元データに対して,ssmの連続信号モデリング能力を拡張した,新しい多次元ssm層s4ndを提案する。我々は,S4NDが連続多次元信号として1D,2D,3Dの大規模視覚データをモデル化できることを示し,既存の最先端モデルにおいて,Conv2Dおよび自己保持層をS4ND層に置き換えることで,高い性能を示す。 ImageNet-1kでは、S4NDは1ドルのパッチシーケンスでトレーニングする場合、Vision Transformerベースラインのパフォーマンスを1.5\%以上上回り、イメージを2ドルでモデリングする場合はConvNeXtと一致する。ビデオの場合、s4ndはhmdb-51のアクティビティ分類で$4\%$で膨らんだ$3$d convnextで改善される。 s4ndは、構成によって不変な大域的連続畳み込みカーネルを暗黙的に学習し、複数の解像度にわたる一般化を可能にする帰納的バイアスを提供する。 S4NDは、エイリアスを克服するためにS4の単純なバンドリミット修正を開発することで、強力なゼロショット(トレーニング時に見えない)解像度性能を実現し、ベースラインのConv2Dを8 \times 8$でトレーニングし、32$イメージで32$でテストすると、CIFAR-10で40\%以上のパフォーマンスを達成している。プログレッシブリサイズでトレーニングすると、S4NDは高解像度モデルの$\sim 1\%$以内で、トレーニングは22\%$速くなります。

関連論文リスト

Uni4D: A Unified Self-Supervised Learning Framework for Point Cloud Videos [48.8325946928959]
事前学習段階における識別的4次元表現を学習するための,最初の自己異方性MAEを紹介する。我々は,Uni4Dと呼ぶ全4Dタスクの微調整性能を向上できることを実証した。
論文参考訳（メタデータ） (2025-04-07T08:47:36Z)
Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [48.87063562819018]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文参考訳（メタデータ） (2025-03-31T17:59:58Z)
Uni4D: Unifying Visual Foundation Models for 4D Modeling from a Single Video [12.283639677279645]
マルチステージ最適化フレームワークであるUni4Dを導入し,複数の事前学習モデルを用いて動的3Dモデリングを行う。その結果,動的4次元モデリングにおける視覚的品質の優れた最先端性能が示された。
論文参考訳（メタデータ） (2025-03-27T17:57:32Z)
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields [56.184278668305076]
2次元視覚基礎モデルから4次元領域へ機能を拡張するための普遍的なフレームワークであるFeature4Xを紹介する。このフレームワークは、まず、ビデオ基礎モデルの機能をSplattingを使って明示的な4D機能フィールドに蒸留し、持ち上げる。実験では、新しいビューセグメント、幾何学的および外観的シーンの編集、全時間ステップにわたる自由形式VQAについて紹介した。
論文参考訳（メタデータ） (2025-03-26T17:56:16Z)
Scaling 4D Representations [77.85462796134455]
ビデオからの純粋な自己教師型学習のために、スケーリングはまだ説得力を持って実証されていない。本稿では,非意味的視覚課題における自己指導型学習の評価に焦点をあてる。
論文参考訳（メタデータ） (2024-12-19T18:59:51Z)
Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video [64.38566659338751]
Deblur4DGSという,ぼやけたモノクロビデオから高品質な4Dモデルを再構成するための,最初の4Dガウス分割フレームワークを提案する。本稿では,多面的,多面的整合性,多面的,多面的,多面的な整合性を実現するために露光規則化を導入し,斬新な視点以外では,デブレア4DGSは,デブロアリング,フレーム合成,ビデオ安定化など,多面的な視点からぼやけた映像を改善するために応用できる。
論文参考訳（メタデータ） (2024-12-09T12:02:11Z)
Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。 4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文参考訳（メタデータ） (2024-07-10T17:23:33Z)
4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文参考訳（メタデータ） (2024-05-31T08:18:39Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。 3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文参考訳（メタデータ） (2024-04-02T17:58:03Z)
STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-22T04:16:33Z)
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文参考訳（メタデータ） (2024-01-16T18:58:36Z)
DreamGaussian4D: Generative 4D Gaussian Splatting [56.49043443452339]
DG4D(DreamGaussian 4D:DreamGaussian 4D)はGaussian Splatting(GS)をベースとした効率的な4D生成フレームワークである。我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的かつ強力な表現ができるということである。ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。
論文参考訳（メタデータ） (2023-12-28T17:16:44Z)
Better Diffusion Models Further Improve Adversarial Training [97.44991845907708]
拡散確率モデル (DDPM) によって生成されたデータは, 対人訓練を改善することが認識されている。本稿では,効率のよい最新の拡散モデルを用いて,肯定的な回答を与える。我々の逆向きに訓練されたモデルは、生成されたデータのみを使用してRobustBench上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-02-09T13:46:42Z)
Diagonal State Spaces are as Effective as Structured State Spaces [3.8276199743296906]
音声コマンドのデータセット上での音声分類は、概念的にシンプルで実装が容易でありながら、Long Range Arenaタスク上でのS4のパフォーマンスと一致することを示す。本研究は,低ランク補正を伴わずともS4の性能に一致できることを示し,状態行列を対角線と仮定する。
論文参考訳（メタデータ） (2022-03-27T16:30:33Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。