Fugu-MT 論文翻訳(概要): SHARCS: Efficient Transformers through Routing with Dynamic Width Sub-networks

論文の概要: SHARCS: Efficient Transformers through Routing with Dynamic Width Sub-networks

arxiv url: http://arxiv.org/abs/2310.12126v1
Date: Wed, 18 Oct 2023 17:35:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 15:38:46.835543
Title: SHARCS: Efficient Transformers through Routing with Dynamic Width Sub-networks
Title（参考訳）: SHARCS:動的幅サブネットワークによるルーティングによる効率的なトランスフォーマー
Authors: Mohammadreza Salehi, Sachin Mehta, Aditya Kusupati, Ali Farhadi, Hannaneh Hajishirzi
Abstract要約: 入力サンプルの硬さを考慮した適応推論のためのSHARCSを提案する。 SHARCSは任意のトランスネットワーク上でルータをトレーニングし、異なるサンプルを様々な幅でサブネットワークに転送することができる。
参考スコア（独自算出の注目度）: 93.0460007020805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce SHARCS for adaptive inference that takes into account the hardness of input samples. SHARCS can train a router on any transformer network, enabling the model to direct different samples to sub-networks with varying widths. Our experiments demonstrate that: (1) SHARCS outperforms or complements existing per-sample adaptive inference methods across various classification tasks in terms of accuracy vs. FLOPs; (2) SHARCS generalizes across different architectures and can be even applied to compressed and efficient transformer encoders to further improve their efficiency; (3) SHARCS can provide a 2 times inference speed up at an insignificant drop in accuracy.
Abstract（参考訳）: 入力サンプルの硬さを考慮した適応推論のためのSHARCSを提案する。 SHARCSは任意のトランスネットワーク上でルータをトレーニングし、異なるサンプルを様々な幅でサブネットワークに転送することができる。実験により,(1) SHARCSは, 様々な分類タスクにおいて, 精度対FLOPsで既存の適応推論手法より優れ, あるいは補完し, (2) SHARCSは異なるアーキテクチャをまたがって一般化し, 圧縮・効率のよいトランスフォーマーエンコーダにも適用でき, (3) SHARCSは, 精度の低下で2倍の推論速度を提供できることを示した。

関連論文リスト

Chain-of-Thought Enhanced Shallow Transformers for Wireless Symbol Detection [14.363929799618283]
無線シンボル検出のためのCoT拡張浅層変圧器フレームワークCHOOSE(CHain Of thOught Symbol dEtection)を提案する。隠れ空間内に自己回帰潜在推論ステップを導入することで、CHOOSEは浅いモデルの推論能力を大幅に改善する。実験により,本手法は従来の浅層変圧器よりも優れ,深部変圧器に匹敵する性能が得られることが示された。
論文参考訳（メタデータ） (2025-06-26T08:41:45Z)
UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths [17.68867710994329]
UniMoDは、各タスクに個別のルータを使用して、どのトークンをプルーニングすべきかを決定するタスク対応トークンプルーニング手法である。提案手法をShow-oとEmu3に適用し,Show-oでは約15%,Emu3では40%のトレーニングFLOPを削減した。
論文参考訳（メタデータ） (2025-02-10T13:52:52Z)
Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文参考訳（メタデータ） (2025-01-06T06:34:52Z)
iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation [15.97351561456467]
本稿では,iConFormerと呼ばれる新しいPEFT手法,入出力トランスフォーマーを提案する。インスタンスレベルの特徴変換を可能にする動的アダプタに,入出力ネットワーク(iCoN)を導入する。具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-09-04T16:06:23Z)
Adaptive Step-size Perception Unfolding Network with Non-local Hybrid Attention for Hyperspectral Image Reconstruction [0.39134031118910273]
FISTAアルゴリズムに基づく深層展開ネットワークであるASPUNを提案する。さらに,非局所的ハイブリッドアテンショントランス (NHAT) モジュールを設計し,コンバータの受容場特性をフル活用する。実験の結果, ASPUNは既存のSOTAアルゴリズムよりも優れ, 最高の性能が得られることがわかった。
論文参考訳（メタデータ） (2024-07-04T16:09:52Z)
Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot [50.16171384920963]
トランスフォーマーアーキテクチャは様々なディープラーニング環境で普及しています勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
論文参考訳（メタデータ） (2024-06-11T02:15:53Z)
Steerable Transformers for Volumetric Data [5.564976582065106]
本稿では, ステアブル・コンボリューションによって抽出された特徴に作用する同変アテンション機構を提案する。 2次元と3次元の両方の実験により、ステアブルな畳み込みネットワークにステアブルなトランスフォーマー層を追加することにより、性能が向上することが示された。
論文参考訳（メタデータ） (2024-05-24T20:43:19Z)
Sample-based Dynamic Hierarchical Transformer with Layer and Head Flexibility via Contextual Bandit [24.78757412559944]
トランスフォーマーは一定の数のレイヤーとヘッドを必要とし、個々のサンプルの複雑さに屈曲する。本稿では,レイヤとヘッドを単一のデータサンプルで動的に設定できる動的階層変換モデルを提案する。トレーニングと推論の両方で最大74%の計算節約を達成でき、精度は最小限です。
論文参考訳（メタデータ） (2023-12-05T15:04:11Z)
Deformable Mixer Transformer with Gating for Multi-Task Learning of Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文参考訳（メタデータ） (2023-08-10T17:37:49Z)
2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。多次元状態空間モデルの表現的変動を利用する。本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文参考訳（メタデータ） (2023-06-11T09:41:37Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。 URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文参考訳（メタデータ） (2022-12-05T23:50:46Z)
Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文参考訳（メタデータ） (2022-03-15T06:52:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。