論文の概要: SHARCS: Efficient Transformers through Routing with Dynamic Width
Sub-networks
- arxiv url: http://arxiv.org/abs/2310.12126v1
- Date: Wed, 18 Oct 2023 17:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:38:46.835543
- Title: SHARCS: Efficient Transformers through Routing with Dynamic Width
Sub-networks
- Title(参考訳): SHARCS:動的幅サブネットワークによるルーティングによる効率的なトランスフォーマー
- Authors: Mohammadreza Salehi, Sachin Mehta, Aditya Kusupati, Ali Farhadi,
Hannaneh Hajishirzi
- Abstract要約: 入力サンプルの硬さを考慮した適応推論のためのSHARCSを提案する。
SHARCSは任意のトランスネットワーク上でルータをトレーニングし、異なるサンプルを様々な幅でサブネットワークに転送することができる。
- 参考スコア(独自算出の注目度): 93.0460007020805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SHARCS for adaptive inference that takes into account the
hardness of input samples. SHARCS can train a router on any transformer
network, enabling the model to direct different samples to sub-networks with
varying widths. Our experiments demonstrate that: (1) SHARCS outperforms or
complements existing per-sample adaptive inference methods across various
classification tasks in terms of accuracy vs. FLOPs; (2) SHARCS generalizes
across different architectures and can be even applied to compressed and
efficient transformer encoders to further improve their efficiency; (3) SHARCS
can provide a 2 times inference speed up at an insignificant drop in accuracy.
- Abstract(参考訳): 入力サンプルの硬さを考慮した適応推論のためのSHARCSを提案する。
SHARCSは任意のトランスネットワーク上でルータをトレーニングし、異なるサンプルを様々な幅でサブネットワークに転送することができる。
実験により,(1) SHARCSは, 様々な分類タスクにおいて, 精度対FLOPsで既存の適応推論手法より優れ, あるいは補完し, (2) SHARCSは異なるアーキテクチャをまたがって一般化し, 圧縮・効率のよいトランスフォーマーエンコーダにも適用でき, (3) SHARCSは, 精度の低下で2倍の推論速度を提供できることを示した。
関連論文リスト
- iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation [15.97351561456467]
本稿では,iConFormerと呼ばれる新しいPEFT手法,入出力トランスフォーマーを提案する。
インスタンスレベルの特徴変換を可能にする動的アダプタに,入出力ネットワーク(iCoN)を導入する。
具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-04T16:06:23Z) - Adaptive Step-size Perception Unfolding Network with Non-local Hybrid Attention for Hyperspectral Image Reconstruction [0.39134031118910273]
FISTAアルゴリズムに基づく深層展開ネットワークであるASPUNを提案する。
さらに,非局所的ハイブリッドアテンショントランス (NHAT) モジュールを設計し,コンバータの受容場特性をフル活用する。
実験の結果, ASPUNは既存のSOTAアルゴリズムよりも優れ, 最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-07-04T16:09:52Z) - Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot [50.16171384920963]
トランスフォーマーアーキテクチャは 様々なディープラーニング環境で普及しています
勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
論文 参考訳(メタデータ) (2024-06-11T02:15:53Z) - Sample-based Dynamic Hierarchical Transformer with Layer and Head
Flexibility via Contextual Bandit [24.78757412559944]
トランスフォーマーは一定の数のレイヤーとヘッドを必要とし、個々のサンプルの複雑さに屈曲する。
本稿では,レイヤとヘッドを単一のデータサンプルで動的に設定できる動的階層変換モデルを提案する。
トレーニングと推論の両方で最大74%の計算節約を達成でき、精度は最小限です。
論文 参考訳(メタデータ) (2023-12-05T15:04:11Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。
URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。
提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文 参考訳(メタデータ) (2022-12-05T23:50:46Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。