論文の概要: Memory-Efficient Differentiable Transformer Architecture Search
- arxiv url: http://arxiv.org/abs/2105.14669v1
- Date: Mon, 31 May 2021 01:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 06:55:52.445509
- Title: Memory-Efficient Differentiable Transformer Architecture Search
- Title(参考訳): メモリ効率の良い微分変換器アーキテクチャ探索
- Authors: Yuekai Zhao, Li Dong, Yelong Shen, Zhihua Zhang, Furu Wei, Weizhu Chen
- Abstract要約: マルチ分割可逆ネットワークを提案し,それをDARTSと組み合わせる。
具体的には、最後のレイヤの出力だけを保存するために、バックプロパゲーション・ウィズ・リコンストラクション・アルゴリズムを考案する。
本稿では,WMT'14,WMT'14,WMT'14,WMT'14,WMT'14,WMT'14の3つのシーケンス・ツー・シーケンス・データセットを用いて検索アーキテクチャを評価する。
- 参考スコア(独自算出の注目度): 59.47253706925725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentiable architecture search (DARTS) is successfully applied in many
vision tasks. However, directly using DARTS for Transformers is
memory-intensive, which renders the search process infeasible. To this end, we
propose a multi-split reversible network and combine it with DARTS.
Specifically, we devise a backpropagation-with-reconstruction algorithm so that
we only need to store the last layer's outputs. By relieving the memory burden
for DARTS, it allows us to search with larger hidden size and more candidate
operations. We evaluate the searched architecture on three sequence-to-sequence
datasets, i.e., WMT'14 English-German, WMT'14 English-French, and WMT'14
English-Czech. Experimental results show that our network consistently
outperforms standard Transformers across the tasks. Moreover, our method
compares favorably with big-size Evolved Transformers, reducing search
computation by an order of magnitude.
- Abstract(参考訳): 差別化可能なアーキテクチャ検索(dart)は多くのビジョンタスクでうまく適用されます。
しかし、dartをトランスフォーマーに直接使用するのはメモリ集約的であり、検索プロセスは実現不可能である。
この目的のために,マルチ分割可逆ネットワークを提案し,DARTSと組み合わせる。
具体的には、最後のレイヤの出力だけを保存するように、バックプロパゲーションと再構成アルゴリズムを考案する。
DARTSのメモリ負荷を軽減することで、より大きな隠れたサイズとより多くの候補操作で検索できます。
wmt'14 english-german, wmt'14 english- french, wmt'14 english-czechの3つのシーケンシャル-to-sequenceデータセットで検索されたアーキテクチャを評価した。
実験の結果,ネットワークはタスク全体にわたって標準トランスフォーマーを上回っていることがわかった。
さらに,提案手法は大規模進化型変圧器と良好に比較し,探索計算を桁違いに削減する。
関連論文リスト
- Separations in the Representational Capabilities of Transformers and Recurrent Architectures [27.783705012503237]
我々は,トランスフォーマーとRNNの表現能力の違いを,実践的妥当性のいくつかのタスクで分析する。
対数幅の一層変換器がインデックス検索を行うのに対し、RNNは線形サイズを隠蔽する必要があることを示す。
また、ログサイズの2層トランスは、最寄りのアルゴリズムをフォワードパスで実装できることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:31:30Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Searching the Search Space of Vision Transformer [98.96601221383209]
視覚変換器は、認識や検出などの視覚的なタスクにおいて、大きな視覚的表現力を示してきた。
我々は,このプロセスを自動化するために,アーキテクチャだけでなく検索空間も探索することで,ニューラルアーキテクチャサーチを提案する。
空間探索プロセスに応じて広範に解析を行う汎用視覚変換器の設計ガイドラインを提供する。
論文 参考訳(メタデータ) (2021-11-29T17:26:07Z) - Quality and Cost Trade-offs in Passage Re-ranking Task [0.0]
本稿では,情報検索パイプラインのランキングステップにおいて,適切なアーキテクチャを選択するかという問題に焦点をあてる。
コルベルトアーキテクチャやポリエンコーダアーキテクチャなどの遅延相互作用モデルとその修正について検討した。
また,検索インデックスのメモリフットプリントの処理を行い,変換器エンコーダから出力ベクトルを二項化するためにラーニング・ツー・ハッシュ法を適用しようとした。
論文 参考訳(メタデータ) (2021-11-18T19:47:45Z) - Distilling Transformers for Neural Cross-Domain Search [9.865125804658991]
我々はシーケンス・ツー・シーケンス・モデルが概念的には理想であると主張する。
我々は,データ拡張スキームとして,新しい蒸留目標を導出する。
自然言語ソースコード検索をクロスドメイン検索のケーススタディとして用い,近年の自然言語コード検索ベンチマークであるCodeSearchNetチャレンジの現在のリーダを大きく改善することで,このアイデアの有効性を実証する。
論文 参考訳(メタデータ) (2021-08-06T22:30:19Z) - GLiT: Neural Architecture Search for Global and Local Image Transformer [114.8051035856023]
画像認識のためのトランスフォーマーアーキテクチャを改良するために,最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
画像分類では,ResNetファミリーやベースラインのViTよりも,より差別的で効率的なトランスフォーマー変種を見つけることができる。
論文 参考訳(メタデータ) (2021-07-07T00:48:09Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z) - AutoTrans: Automating Transformer Design via Reinforced Architecture
Search [52.48985245743108]
本稿では,手作業に適したトランスフォーマーアーキテクチャを実現するために,レイヤノルムの設定方法,スケール,レイヤ数,ヘッド数,アクティベーション関数などを実証的に検討する。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
論文 参考訳(メタデータ) (2020-09-04T08:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。