論文の概要: AFFMAE: Scalable and Efficient Vision Pretraining for Desktop Graphics Cards
- arxiv url: http://arxiv.org/abs/2602.16249v1
- Date: Wed, 18 Feb 2026 07:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.545005
- Title: AFFMAE: Scalable and Efficient Vision Pretraining for Desktop Graphics Cards
- Title(参考訳): AFFMAE:デスクトップグラフィックカードのためのスケーラブルで効率的なビジョン事前トレーニング
- Authors: David Smerkous, Zian Wang, Behzad Najafian,
- Abstract要約: Masked Autoencoders (MAE) は可視トークンのみを符号化することで計算を減らす。
本稿では,適応型オフグリッドトークンマージに基づくマスキングフレンドリーな階層型事前トレーニングフレームワークであるAFFMAEを紹介する。
- 参考スコア(独自算出の注目度): 8.026364090097951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pretraining has transformed computer vision by enabling data-efficient fine-tuning, yet high-resolution training typically requires server-scale infrastructure, limiting in-domain foundation model development for many research laboratories. Masked Autoencoders (MAE) reduce computation by encoding only visible tokens, but combining MAE with hierarchical downsampling architectures remains structurally challenging due to dense grid priors and mask-aware design compromises. We introduce AFFMAE, a masking-friendly hierarchical pretraining framework built on adaptive, off-grid token merging. By discarding masked tokens and performing dynamic merging exclusively over visible tokens, AFFMAE removes dense-grid assumptions while preserving hierarchical scalability. We developed numerically stable mixed-precision Flash-style cluster attention kernels, and mitigate sparse-stage representation collapse via deep supervision. On high-resolution electron microscopy segmentation, AFFMAE matches ViT-MAE performance at equal parameter count while reducing FLOPs by up to 7x, halving memory usage, and achieving faster training on a single RTX 5090. Code available at https://github.com/najafian-lab/affmae.
- Abstract(参考訳): 自己監督型事前訓練は、データ効率のよい微調整を可能にすることでコンピュータビジョンを変容させたが、高解像度の訓練にはサーバースケールのインフラが必要であり、多くの研究所でドメイン内基盤モデルの開発が制限されている。
Masked Autoencoders (MAE) は、可視トークンのみを符号化することで計算を削減しているが、階層的なダウンサンプリングアーキテクチャとMAEを組み合わせることは、高密度グリッドとマスク対応設計の妥協により、構造的に困難である。
本稿では,適応型オフグリッドトークンマージに基づくマスキングフレンドリーな階層型事前トレーニングフレームワークであるAFFMAEを紹介する。
マスク付きトークンを破棄し、目に見えるトークンにのみ動的マージを実行することで、AFFMAEは階層的スケーラビリティを維持しながら密度の低い仮定を除去する。
数値的に安定な混合精度Flash型クラスタアテンションカーネルを開発し、深層監視によるスパースステージ表現の崩壊を緩和した。
高分解能電子顕微鏡セグメンテーションでは、AFFMAEはVT-MAE性能を同等パラメータ数で一致させ、FLOPを最大7倍に削減し、メモリ使用量を半分にし、1つのRTX 5090で高速なトレーニングを実現した。
コードはhttps://github.com/najafian-lab/affmae.comで公開されている。
関連論文リスト
- ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。
視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文 参考訳(メタデータ) (2026-01-07T14:09:18Z) - Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers [36.26426380985327]
Diffusion Transformers (DiTs) は、視覚生成における技術の状態を設定しているが、その二次的な自己注意コストは、長いトークンシーケンスへのスケーリングを制限している。
最近のTop-Kスパースアテンションアプローチは、トークンをブロックワイズ表現に圧縮することで、DiTの計算を減らす。
極長トークン列に対するトレーニング可能なスパースアテンション機構であるログ線形スパースアテンション(LLSA)を導入する。
論文 参考訳(メタデータ) (2025-12-18T14:53:12Z) - CoMA: Complementary Masking and Hierarchical Dynamic Multi-Window Self-Attention in a Unified Pre-training Framework [38.280496016533355]
Masked Autoencoders (MAE)は、視覚トークンの一部をランダムに除去し、原画像をプリテキストタスクとして再構成することにより、画像表現の自己教師付き学習を実現する。
本研究では,全画素の均一サンプリングを保証するために,補完マスク方式を用いた補完マスク付きオートエンコーダ(CoMA)を提案する。
DM-MSA(Dynamic Multi-Window Self-Attention)を用いた階層型視覚変換器DyViTについても紹介する。
論文 参考訳(メタデータ) (2025-11-08T08:43:41Z) - MASC: Boosting Autoregressive Image Generation with a Manifold-Aligned Semantic Clustering [7.928163920344391]
本稿では,コードブックの本質的な構造から階層的な意味木を直接構築する原理的フレームワークを提案する。
MASCはプラグアンドプレイモジュールとして設計されており,本実験の有効性を検証した。
トレーニングを最大57%加速し、生成品質を大幅に改善し、LlamaGen-XLのFIDを2.87から2.58に削減した。
論文 参考訳(メタデータ) (2025-10-05T14:23:51Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。