論文の概要: A Memory-Efficient Framework for Deformable Transformer with Neural Architecture Search
- arxiv url: http://arxiv.org/abs/2507.11549v2
- Date: Sat, 26 Jul 2025 10:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.968176
- Title: A Memory-Efficient Framework for Deformable Transformer with Neural Architecture Search
- Title(参考訳): ニューラルアーキテクチャ探索による変形可能な変圧器のメモリ効率向上フレームワーク
- Authors: Wendong Mao, Mingfan Zhao, Jianfeng Guan, Qiwei Dong, Zhongfeng Wang,
- Abstract要約: Deformable Attention Transformer (DAT) はコンピュータビジョンタスクにおいて顕著な性能を示した。
既存のアクセラレーション手法は高いハードウェアオーバーヘッドを発生させるか、モデルの精度を妥協させるかのいずれかである。
本稿では,DATのためのハードウェアフレンドリな最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.533437219543447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deformable Attention Transformers (DAT) have shown remarkable performance in computer vision tasks by adaptively focusing on informative image regions. However, their data-dependent sampling mechanism introduces irregular memory access patterns, posing significant challenges for efficient hardware deployment. Existing acceleration methods either incur high hardware overhead or compromise model accuracy. To address these issues, this paper proposes a hardware-friendly optimization framework for DAT. First, a neural architecture search (NAS)-based method with a new slicing strategy is proposed to automatically divide the input feature into uniform patches during the inference process, avoiding memory conflicts without modifying model architecture. The method explores the optimal slice configuration by jointly optimizing hardware cost and inference accuracy. Secondly, an FPGA-based verification system is designed to test the performance of this framework on edge-side hardware. Algorithm experiments on the ImageNet-1K dataset demonstrate that our hardware-friendly framework can maintain have only 0.2% accuracy drop compared to the baseline DAT. Hardware experiments on Xilinx FPGA show the proposed method reduces DRAM access times to 18% compared with existing DAT acceleration methods.
- Abstract(参考訳): Deformable Attention Transformer (DAT) は、情報領域に適応して焦点を当てることで、コンピュータビジョンタスクにおいて顕著な性能を示した。
しかし、そのデータ依存サンプリングメカニズムは不規則なメモリアクセスパターンを導入し、効率的なハードウェアデプロイメントにおいて重大な課題を提起する。
既存のアクセラレーション手法は高いハードウェアオーバーヘッドを発生させるか、モデルの精度を妥協させるかのいずれかである。
そこで本研究では,DATのためのハードウェアフレンドリな最適化フレームワークを提案する。
まず、新しいスライシング戦略を持つニューラルアーキテクチャサーチ(NAS)に基づく手法を提案し、モデルアーキテクチャを変更することなく、入力機能を推論プロセス中に均一なパッチに自動的に分割する。
ハードウェアコストと推論精度を協調的に最適化することで最適スライス構成を探索する。
第2に、FPGAベースの検証システムは、エッジサイドハードウェア上でこのフレームワークの性能をテストするように設計されている。
ImageNet-1Kデータセットのアルゴリズム実験により、我々のハードウェアフレンドリーなフレームワークは、ベースラインのDATと比較してわずか0.2%の精度で維持可能であることが示された。
Xilinx FPGA 上でのハードウェア実験により,提案手法は既存の DAT アクセラレーション手法と比較して,DRAM アクセス時間を18%削減することを示した。
関連論文リスト
- Federated Learning of Low-Rank One-Shot Image Detection Models in Edge Devices with Scalable Accuracy and Compute Complexity [5.820612543019548]
LoRa-FLは、エッジデバイスにデプロイされた低ランクのワンショット画像検出モデルをトレーニングするために設計された。
低ランク適応手法をワンショット検出アーキテクチャに組み込むことで,計算と通信のオーバーヘッドを大幅に低減する。
論文 参考訳(メタデータ) (2025-04-23T08:40:44Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - XR-VIO: High-precision Visual Inertial Odometry with Fast Initialization for XR Applications [34.2082611110639]
本稿では,視覚慣性オドメトリー(VIO)に対する新しいアプローチとして,初期化と特徴マッチングモジュールについて述べる。
ジャイロスコープの既存の方法は、運動からの視覚構造(SfM)の安定性の低下や、膨大な数のパラメータの同時解決に悩まされることが多い。
測定値の密結合により,視覚的SfMの堅牢性と精度が向上する。
特徴マッチングに関しては,光学フローとディスクリプタベースマッチングを組み合わせたハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T12:17:51Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Regularized Adaptive Momentum Dual Averaging with an Efficient Inexact Subproblem Solver for Training Structured Neural Network [9.48424754175943]
本稿では、構造化ニューラルネットワークのトレーニングのための正規化適応モーメントデュアル平均化(RAMDA)を提案する。
定常収束点における正則化器によって誘導される理想構造が得られることを示す。
この構造は収束点付近で局所的に最適であるため、RAMDAは可能な限り最高の構造が得られることが保証される。
論文 参考訳(メタデータ) (2024-03-21T13:43:49Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z) - Algorithm-hardware Co-design for Deformable Convolution [40.50544352625659]
我々は、変形可能な畳み込みを改良した効率的な物体検出ネットワークを構築し、最先端の量子化手法を用いてネットワークを定量化する。
予備実験では、変形可能な畳み込みに対する設計最適化により、ほとんど精度が損なわれず、高速化が達成できることが示されている。
論文 参考訳(メタデータ) (2020-02-19T01:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。