論文の概要: Atlas: Multi-Scale Attention Improves Long Context Image Modeling
- arxiv url: http://arxiv.org/abs/2503.12355v1
- Date: Sun, 16 Mar 2025 04:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:51.744964
- Title: Atlas: Multi-Scale Attention Improves Long Context Image Modeling
- Title(参考訳): Atlas: 長期のコンテキストイメージモデリングを改善するマルチスケールアテンション
- Authors: Kumar Krishna Agrawal, Long Lian, Longchao Liu, Natalia Harguindeguy, Boyi Li, Alexander Bick, Maggie Chung, Trevor Darrell, Adam Yala,
- Abstract要約: 大規模画像を効率的にモデル化するために,MSA(Multi-Scale Attention)を導入する。
次に、MSAに基づいた新しいニューラルネットワークアーキテクチャであるAtlasを紹介します。
1024pxの解像度では、Atlas-Bは91.04%の精度で、ConvNext-B (91.92%)に匹敵し、4.3倍高速である。
- 参考スコア(独自算出の注目度): 78.81913679023062
- License:
- Abstract: Efficiently modeling massive images is a long-standing challenge in machine learning. To this end, we introduce Multi-Scale Attention (MSA). MSA relies on two key ideas, (i) multi-scale representations (ii) bi-directional cross-scale communication. MSA creates O(log N) scales to represent the image across progressively coarser features and leverages cross-attention to propagate information across scales. We then introduce Atlas, a novel neural network architecture based on MSA. We demonstrate that Atlas significantly improves the compute-performance tradeoff of long-context image modeling in a high-resolution variant of ImageNet 100. At 1024px resolution, Atlas-B achieves 91.04% accuracy, comparable to ConvNext-B (91.92%) while being 4.3x faster. Atlas is 2.95x faster and 7.38% better than FasterViT, 2.25x faster and 4.96% better than LongViT. In comparisons against MambaVision-S, we find Atlas-S achieves 5%, 16% and 32% higher accuracy at 1024px, 2048px and 4096px respectively, while obtaining similar runtimes. Code for reproducing our experiments and pretrained models is available at https://github.com/yalalab/atlas.
- Abstract(参考訳): 大量の画像を効果的にモデリングすることは、機械学習における長年の課題である。
この目的のために,マルチスケール・アテンション(Multi-Scale Attention, MSA)を導入する。
MSAは2つの重要な考えに依存している。
(i)マルチスケール表現
(ii)双方向の双方向通信。
MSAはO(log N)スケールを作成し、徐々に粗い特徴にまたがって画像を表現する。
次に、MSAに基づいた新しいニューラルネットワークアーキテクチャであるAtlasを紹介します。
我々は、ImageNet 100の高解像度版において、Atlasが長文画像モデリングの計算性能のトレードオフを大幅に改善することを実証した。
1024pxの解像度では、Atlas-Bは91.04%の精度で、ConvNext-B (91.92%)に匹敵し、4.3倍高速である。
AtlasはFasterViTより2.95倍速く、7.38%はFasterViTより2.25倍速く、4.96%はLongViTより優れている。
MambaVision-Sと比較すると,Atlas-Sは1024px,2048px,4096pxで5%,16%,32%高い精度を達成でき,同様のランタイムが得られる。
実験と事前訓練済みのモデルを再現するためのコードはhttps://github.com/yalalab/atlas.comで公開されている。
関連論文リスト
- NVILA: Efficient Frontier Visual Language Models [90.38936112050857]
我々は、効率と精度の両方を最適化するために設計されたオープンビジュアル言語モデル(VLM)のファミリであるNVILAを紹介する。
VILA上に構築したモデルアーキテクチャは,まず空間分解能と時間分解能をスケールアップし,次に視覚トークンを圧縮することによって改善する。
我々は、NVILAのライフサイクル全体を通して、トレーニングや微調整から展開までの効率を高めるための体系的な調査を行っている。
論文 参考訳(メタデータ) (2024-12-05T18:59:55Z) - Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。
パラメータ数は128Mから1.3Bまで様々である。
論文 参考訳(メタデータ) (2024-08-22T09:27:49Z) - Side4Video: Spatial-Temporal Side Network for Memory-Efficient
Image-to-Video Transfer Learning [47.79321255764455]
訓練済みの大規模なビジョンモデルは、コンピュータビジョンにおいて驚くべき成功を収める。
既存の微調整手法では、トレーニングメモリの使用率や、より大きなモデルをビデオドメインに転送する探索に注意が払われていない。
そこで我々は,Side4Videoというビデオ理解のために,メモリ効率の良い微細調整大型画像モデルのための空間時間側ネットワークを提案する。
論文 参考訳(メタデータ) (2023-11-27T12:39:42Z) - Yin Yang Convolutional Nets: Image Manifold Extraction by the Analysis
of Opposites [1.1560177966221703]
Yin Yang Convolutional Networkは、視覚多様体を抽出するアーキテクチャである。
最初のモデルでは、テスト精度93.32%に達し、このカテゴリーでは古いSOTAよりも0.8%高かった。
ImageNetでも分析を行い、1.6Mパラメータで66.49%の精度で検証しました。
論文 参考訳(メタデータ) (2023-10-24T19:48:07Z) - SatlasPretrain: A Large-Scale Dataset for Remote Sensing Image
Understanding [24.36102266621857]
広さと規模の両方で大きなリモートセンシングデータセットであるSatlasPretrainを提示する。
そこで我々は,サトラスプレトレインの8つのベースラインと提案手法を評価し,改良の余地を見出した。
論文 参考訳(メタデータ) (2022-11-28T18:59:26Z) - Contrastive Learning with Stronger Augmentations [63.42057690741711]
本論文では,現在のコントラスト学習のアプローチを補完する,より強い拡張(A)によるコントラスト学習という汎用フレームワークを提案する。
ここでは、表現バンク上の弱強調画像と強拡張画像との間の分布のばらつきを利用して、強拡張クエリの検索を監督する。
実験では、強力な画像からの情報により、パフォーマンスが大幅に向上します。
論文 参考訳(メタデータ) (2021-04-15T18:40:04Z) - EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。
トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。
実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文 参考訳(メタデータ) (2021-04-01T07:08:36Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。