論文の概要: Rethinking the Role of Spatial Mixing
- arxiv url: http://arxiv.org/abs/2503.16760v1
- Date: Fri, 21 Mar 2025 00:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:57.665435
- Title: Rethinking the Role of Spatial Mixing
- Title(参考訳): 空間混合の役割を再考する
- Authors: George Cazenavette, Joel Julin, Simon Lucey,
- Abstract要約: 2D畳み込みは、表現の空間次元とチャネル次元の両方にわたる情報を同時に混合する。
本稿では,これらの混合操作の役割について,より深く理解するための第一歩を踏み出した。
ランダムな固定空間混合モデルでは, 逆方向の摂動に対して自然に頑健であることを示す。
- 参考スコア(独自算出の注目度): 36.247498958473194
- License:
- Abstract: Until quite recently, the backbone of nearly every state-of-the-art computer vision model has been the 2D convolution. At its core, a 2D convolution simultaneously mixes information across both the spatial and channel dimensions of a representation. Many recent computer vision architectures consist of sequences of isotropic blocks that disentangle the spatial and channel-mixing components. This separation of the operations allows us to more closely juxtapose the effects of spatial and channel mixing in deep learning. In this paper, we take an initial step towards garnering a deeper understanding of the roles of these mixing operations. Through our experiments and analysis, we discover that on both classical (ResNet) and cutting-edge (ConvMixer) models, we can reach nearly the same level of classification performance by and leaving the spatial mixers at their random initializations. Furthermore, we show that models with random, fixed spatial mixing are naturally more robust to adversarial perturbations. Lastly, we show that this phenomenon extends past the classification regime, as such models can also decode pixel-shuffled images.
- Abstract(参考訳): ごく最近まで、最先端のコンピュータビジョンモデルのバックボーンは2Dコンボリューションだった。
中心となる2D畳み込みは、表現の空間次元とチャネル次元の両方にわたる情報を同時に混合する。
最近のコンピュータビジョンアーキテクチャの多くは、空間とチャネルの混合成分を歪ませる等方的ブロックのシーケンスで構成されている。
この操作の分離により、深層学習における空間混合とチャネル混合の効果をより緊密に調整することができる。
本稿では,これらの混合操作の役割について,より深く理解するための最初の一歩を踏み出す。
実験と解析により,古典的(ResNet)モデルと近縁的(ConvMixer)モデルの両方において,空間ミキサーをランダムに初期化することで,ほぼ同じレベルの分類性能が得られることがわかった。
さらに, ランダムな固定空間混合モデルでは, 逆方向の摂動に対して自然に頑健であることを示す。
最後に,この現象は分類体系を超越し,画素シャッフル画像の復号化も可能であることを示す。
関連論文リスト
- Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - From pixels to planning: scale-free active inference [42.04471916762639]
本稿では、生成的モデリングのための離散状態空間モデルとそれに伴う手法について述べる。
我々は、再正規化群を用いて、深層または階層的な形式を考える。
この技術ノートは、一連のアプリケーションを使用したRGMの自動発見、学習、デプロイを説明している。
論文 参考訳(メタデータ) (2024-07-27T14:20:48Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Coarse-Fine Spectral-Aware Deformable Convolution For Hyperspectral Image Reconstruction [15.537910100051866]
Coded Aperture Snapshot Spectral Imaging (CASSI) の逆問題について検討する。
粗面スペクトル対応変形性畳み込みネットワーク(CFSDCN)を提案する。
我々のCFSDCNは、シミュレーションされたHSIデータセットと実際のHSIデータセットの両方において、従来の最先端(SOTA)メソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-18T15:15:12Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - Toward Moir\'e-Free and Detail-Preserving Demosaicking [3.9064624794570593]
3D畳み込みは一般的に神経モデルを破壊するために使用される。
3Dコンボリューションは相補的な情報交換からRGB色スペクトルを暗黙的に阻害することを示す。
浅い3D畳み込みネットワークはモイアのアーティファクトに苦しむが、深い3D畳み込みは過度に滑らかさを引き起こす。
論文 参考訳(メタデータ) (2023-05-15T12:12:29Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - Clustering of the Blendshape Facial Model [0.0]
デジタル人間のアニメーションは、人間の顔の高品質な3Dモデルに依存している。
本稿では,逆リグパラメータを精度の向上と計算コストの削減で学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-05T07:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。