論文の概要: DASViT: Differentiable Architecture Search for Vision Transformer
- arxiv url: http://arxiv.org/abs/2507.13079v1
- Date: Thu, 17 Jul 2025 12:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.495734
- Title: DASViT: Differentiable Architecture Search for Vision Transformer
- Title(参考訳): DASViT:視覚変換器のための微分可能なアーキテクチャ検索
- Authors: Pengjin Wu, Ferrante Neri, Zhenhua Feng,
- Abstract要約: 視覚変換器のための微分可能なアーキテクチャ探索(DASViT)を導入する。
DASViTはViTの識別可能な検索のギャップを埋め、新しいデザインを明らかにする。
実験によると、DASViTは従来のTransformerエンコーダの設計を破り、複数のデータセットでViT-B/16を上回り、パラメータやFLOPを減らして優れた効率を達成するアーキテクチャを提供する。
- 参考スコア(独自算出の注目度): 8.839801565444775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing effective neural networks is a cornerstone of deep learning, and Neural Architecture Search (NAS) has emerged as a powerful tool for automating this process. Among the existing NAS approaches, Differentiable Architecture Search (DARTS) has gained prominence for its efficiency and ease of use, inspiring numerous advancements. Since the rise of Vision Transformers (ViT), researchers have applied NAS to explore ViT architectures, often focusing on macro-level search spaces and relying on discrete methods like evolutionary algorithms. While these methods ensure reliability, they face challenges in discovering innovative architectural designs, demand extensive computational resources, and are time-intensive. To address these limitations, we introduce Differentiable Architecture Search for Vision Transformer (DASViT), which bridges the gap in differentiable search for ViTs and uncovers novel designs. Experiments show that DASViT delivers architectures that break traditional Transformer encoder designs, outperform ViT-B/16 on multiple datasets, and achieve superior efficiency with fewer parameters and FLOPs.
- Abstract(参考訳): 効果的なニューラルネットワークの設計はディープラーニングの基盤であり、このプロセスを自動化するための強力なツールとしてニューラルネットワーク探索(NAS)が登場した。
既存のNASアプローチの中で、微分可能なアーキテクチャサーチ(DARTS)はその効率性と使いやすさで有名になり、多くの進歩をもたらした。
ViT(Vision Transformers)の登場以来、研究者はNASを用いてViTアーキテクチャを探索し、しばしばマクロレベルの検索空間に焦点をあて、進化アルゴリズムのような個別の手法に依存している。
これらの手法は信頼性を保証するが、革新的なアーキテクチャ設計の発見、広範な計算資源の要求、時間集約といった課題に直面している。
これらの制約に対処するために,視覚変換のための微分可能なアーキテクチャ探索 (DASViT) を導入する。
実験によると、DASViTは従来のTransformerエンコーダの設計を破り、複数のデータセットでViT-B/16を上回り、パラメータやFLOPを減らして優れた効率を達成するアーキテクチャを提供する。
関連論文リスト
- DANCE: Resource-Efficient Neural Architecture Search with Data-Aware and Continuous Adaptation [33.08911251924756]
DANCE(Dynamic Architectures with Neural Continuous Evolution)を提案する。
DANCEでは、スムーズな適応を可能にする継続的アーキテクチャ分布、効率的なサンプリングのための学習された選択ゲートを備えた統一アーキテクチャ空間、効率的なデプロイメント最適化のためのマルチステージトレーニング戦略の3つの重要なイノベーションを紹介している。
提案手法は,検索コストを大幅に削減しつつ,精度面で最先端のNAS手法より一貫して優れている。
論文 参考訳(メタデータ) (2025-07-07T05:22:55Z) - Learning Novel Transformer Architecture for Time-series Forecasting [9.412920379798928]
AutoFormer-TSは、時系列予測タスクに適したTransformerアーキテクチャの包括的な検索スペースを活用する新しいフレームワークである。
我々のフレームワークは、既存のDNASアプローチを改善した、差別化可能なニューラルアーキテクチャサーチ(DNAS)手法であるAB-DARTSを導入している。
論文 参考訳(メタデータ) (2025-02-19T13:49:20Z) - TART: Token-based Architecture Transformer for Neural Network Performance Prediction [0.0]
トークンベースのアーキテクチャトランスフォーマー(TART)は、候補ネットワークをトレーニングすることなく、ニューラルネットワークのパフォーマンスを予測する。
TARTはエッジ情報のないパフォーマンス予測タスクのために、DeepNets-1Mデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-02T05:22:17Z) - EM-DARTS: Hierarchical Differentiable Architecture Search for Eye Movement Recognition [20.209756662832365]
微分可能なニューラルアーキテクチャサーチ(DARTS)は、高い探索効率でアーキテクチャ設計のマニュアルプロセスを自動化する。
眼球運動認識のためのDLアーキテクチャを自動設計する階層的微分可能なアーキテクチャ探索アルゴリズムEM-DARTSを提案する。
EM-DARTSは、最先端の認識性能につながる最適なアーキテクチャを実現できることを示す。
論文 参考訳(メタデータ) (2024-09-22T13:11:08Z) - TurboViT: Generating Fast Vision Transformers via Generative
Architecture Search [74.24393546346974]
近年、視覚変換器は様々な視覚認知タスクに対処する上で、前例のないレベルの性能を示している。
近年,効率的な視覚変換器の設計に関する研究が盛んに行われている。
本研究では,生成型アーキテクチャサーチによる高速ビジョントランスフォーマーアーキテクチャの設計について検討する。
論文 参考訳(メタデータ) (2023-08-22T13:08:29Z) - Searching the Search Space of Vision Transformer [98.96601221383209]
視覚変換器は、認識や検出などの視覚的なタスクにおいて、大きな視覚的表現力を示してきた。
我々は,このプロセスを自動化するために,アーキテクチャだけでなく検索空間も探索することで,ニューラルアーキテクチャサーチを提案する。
空間探索プロセスに応じて広範に解析を行う汎用視覚変換器の設計ガイドラインを提供する。
論文 参考訳(メタデータ) (2021-11-29T17:26:07Z) - Searching for Efficient Multi-Stage Vision Transformers [42.0565109812926]
Vision Transformer (ViT)は、自然言語処理のためのTransformerがコンピュータビジョンタスクに適用可能であることを示す。
ViT-ResNASは、ニューラルネットワークサーチ(NAS)で設計された効率的なマルチステージViTアーキテクチャである
論文 参考訳(メタデータ) (2021-09-01T22:37:56Z) - Multi-Exit Vision Transformer for Dynamic Inference [88.17413955380262]
視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
論文 参考訳(メタデータ) (2021-06-29T09:01:13Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z) - NAS-Count: Counting-by-Density with Neural Architecture Search [74.92941571724525]
ニューラルアーキテクチャサーチ(NAS)を用いたカウントモデルの設計を自動化する
エンド・ツー・エンドの検索エンコーダ・デコーダアーキテクチャであるAutomatic Multi-Scale Network(AMSNet)を導入する。
論文 参考訳(メタデータ) (2020-02-29T09:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。