論文の概要: Faster Depth-Adaptive Transformers
- arxiv url: http://arxiv.org/abs/2004.13542v4
- Date: Wed, 16 Dec 2020 09:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:32:15.708906
- Title: Faster Depth-Adaptive Transformers
- Title(参考訳): 高速深度適応変圧器
- Authors: Yijin Liu, Fandong Meng, Jie Zhou, Yufeng Chen, Jinan Xu
- Abstract要約: 深さ適応型ニューラルネットワークは入力単語の硬さに応じて動的に深さを調整することができる。
従来の作業は一般的に、計算が各レイヤで続行するか停止するかを決定するために停止ユニットを構築する。
本稿では,停止ユニットを除去し,必要な深さを事前に推定し,より高速な深度適応モデルを生成する。
- 参考スコア(独自算出の注目度): 71.20237659479703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth-adaptive neural networks can dynamically adjust depths according to the
hardness of input words, and thus improve efficiency. The main challenge is how
to measure such hardness and decide the required depths (i.e., layers) to
conduct. Previous works generally build a halting unit to decide whether the
computation should continue or stop at each layer. As there is no specific
supervision of depth selection, the halting unit may be under-optimized and
inaccurate, which results in suboptimal and unstable performance when modeling
sentences. In this paper, we get rid of the halting unit and estimate the
required depths in advance, which yields a faster depth-adaptive model.
Specifically, two approaches are proposed to explicitly measure the hardness of
input words and estimate corresponding adaptive depth, namely 1) mutual
information (MI) based estimation and 2) reconstruction loss based estimation.
We conduct experiments on the text classification task with 24 datasets in
various sizes and domains. Results confirm that our approaches can speed up the
vanilla Transformer (up to 7x) while preserving high accuracy. Moreover,
efficiency and robustness are significantly improved when compared with other
depth-adaptive approaches.
- Abstract(参考訳): 深さ適応ニューラルネットワークは、入力単語の硬度に応じて深さを動的に調整することができ、効率が向上する。
主な課題は、そのような硬さを計測し、実行するために必要な深さ(すなわち層)を決定する方法である。
従来の作業は一般的に、計算が各レイヤで継続するか停止するかを決定するために停止ユニットを構築する。
深さ選択の具体的な監督がないため、停止単位は過度に最適化され不正確であり、文をモデル化する際の準最適および不安定な性能をもたらす。
本稿では,停止ユニットを取り除き,必要な深さを事前に推定することで,より高速な深度適応モデルを実現する。
具体的には,入力単語の難易度を明示的に測定し,対応する適応深さを推定する2つの手法を提案する。
1)相互情報(MI)に基づく推定と評価
2)再建損失に基づく推定。
様々なサイズとドメインの24のデータセットを用いて,テキスト分類タスクの実験を行う。
その結果,高い精度を維持しつつバニラ変圧器(最大7倍)を高速化できることを確認した。
さらに、他の深度適応アプローチと比較して、効率性と堅牢性は著しく向上する。
関連論文リスト
- Self-supervised Monocular Depth Estimation with Large Kernel Attention [30.44895226042849]
より詳細な情報を得るために,自己教師付き単眼深度推定ネットワークを提案する。
具体的には,長距離依存性をモデル化可能なカーネルアテンションに基づくデコーダを提案する。
提案手法は,KITTIデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:44:41Z) - Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN [9.185929396989083]
我々は、トランスフォーマーとCNNの区別を対照的に分析するために、スパースピクセルアプローチを採用している。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
本稿では,高次微分,特徴融合,再校正による深度推定を改良したDGRモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-16T12:46:52Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - DDPG-Driven Deep-Unfolding with Adaptive Depth for Channel Estimation
with Sparse Bayesian Learning [23.158142411929322]
まず,異なる入力に対して適応的な深さを持つDDPG(Deep Deterministic Policy gradient)駆動のディープアンフォールディングの枠組みを開発する。
具体的には,大規模マルチインプットマルチアウトプットシステムにおけるチャネル推定問題に対処するために,このフレームワークを用いる。
論文 参考訳(メタデータ) (2022-01-20T22:35:42Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Geometry Uncertainty Projection Network for Monocular 3D Object
Detection [138.24798140338095]
本稿では,予測および学習段階の誤り増幅問題に対処するために,幾何不確実性予測ネットワーク(GUP Net)を提案する。
具体的には, GUPモジュールを提案し, 推定深さの幾何誘導不確かさを求める。
トレーニング段階では,エラー増幅による不安定性を低減するための階層型タスク学習戦略を提案する。
論文 参考訳(メタデータ) (2021-07-29T06:59:07Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Direct Depth Learning Network for Stereo Matching [79.3665881702387]
ステレオマッチングのための新しいダイレクトディープス学習ネットワーク(DDL-Net)が設計されている。
DDL-Netは、粗度推定段階と適応勾配深度補正段階の2段階からなる。
我々は,DDL-NetがSceneFlowデータセットで25%,DrivingStereoデータセットで12%の平均的な改善を実現していることを示す。
論文 参考訳(メタデータ) (2020-12-10T10:33:57Z) - Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime
with Search [84.94597821711808]
我々は,PoWER-BERT(Goyal et al., 2020)を拡張し,一発訓練後に様々な推論シナリオに使用できる長適応変換器を提案する。
我々は,任意の計算予算の下で,精度を最大化し,効率の指標を最小化する長さ構成を求めるために,多目的進化探索を行う。
提案手法の有効性を実証的に検証し,各種設定下での精度・効率のトレードオフを実証する。
論文 参考訳(メタデータ) (2020-10-14T12:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。