論文の概要: Controlling Computation versus Quality for Neural Sequence Models
- arxiv url: http://arxiv.org/abs/2002.07106v2
- Date: Thu, 16 Apr 2020 15:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 11:42:06.030751
- Title: Controlling Computation versus Quality for Neural Sequence Models
- Title(参考訳): ニューラルシーケンスモデルの計算量と品質の制御
- Authors: Ankur Bapna, Naveen Arivazhagan, Orhan Firat
- Abstract要約: 条件付き計算は、推論中にニューラルシーケンスモデル(トランスフォーマー)をより効率的かつ計算に適応させる。
i)WMT英仏訳と(ii)教師なし表現学習(BERT)の2つの課題に対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 42.525463454120256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most neural networks utilize the same amount of compute for every example
independent of the inherent complexity of the input. Further, methods that
adapt the amount of computation to the example focus on finding a fixed
inference-time computational graph per example, ignoring any external
computational budgets or varying inference time limitations. In this work, we
utilize conditional computation to make neural sequence models (Transformer)
more efficient and computation-aware during inference. We first modify the
Transformer architecture, making each set of operations conditionally
executable depending on the output of a learned control network. We then train
this model in a multi-task setting, where each task corresponds to a particular
computation budget. This allows us to train a single model that can be
controlled to operate on different points of the computation-quality trade-off
curve, depending on the available computation budget at inference time. We
evaluate our approach on two tasks: (i) WMT English-French Translation and (ii)
Unsupervised representation learning (BERT). Our experiments demonstrate that
the proposed Conditional Computation Transformer (CCT) is competitive with
vanilla Transformers when allowed to utilize its full computational budget,
while improving significantly over computationally equivalent baselines when
operating on smaller computational budgets.
- Abstract(参考訳): ほとんどのニューラルネットワークは、入力の固有の複雑さとは無関係に、すべての例で同じ計算量を使用する。
さらに、計算量を例に当てはめる方法は、例ごとに固定された推論時間計算グラフを見つけ、外部の計算予算を無視したり、様々な推論時間制限を無視することに焦点を当てる。
本研究では、条件計算を用いて、推論中にニューラルネットワークモデル(Transformer)をより効率的かつ計算に適応させる。
我々はまずTransformerアーキテクチャを変更し、学習した制御ネットワークの出力に応じて各操作セットを条件付き実行可能にした。
次に、各タスクが特定の計算予算に対応するマルチタスク設定でこのモデルをトレーニングします。
これにより、推論時に利用可能な計算予算に応じて、計算品質のトレードオフ曲線の異なる点で動作するように制御できる単一のモデルを訓練することができる。
アプローチを2つのタスクで評価します
(i)wmt英仏訳、及び
(II)教師なし表現学習(BERT)
提案する条件計算トランスフォーマ (cct) は, 計算予算を十分に活用できる場合にはバニラトランスと競合するが, より小さな計算予算で動作した場合は, 計算等価なベースラインよりも大幅に性能が向上する。
関連論文リスト
- Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE [68.6018458996143]
本稿では,量子化と早期出口動的ネットワークを組み合わせたより一般的な動的ネットワークQuEEを提案する。
我々のアルゴリズムは、ソフトアーリーエグジットや入力依存圧縮の一形態と見なすことができる。
提案手法の重要な要素は、さらなる計算によって実現可能な潜在的な精度向上の正確な予測である。
論文 参考訳(メタデータ) (2024-06-20T15:25:13Z) - Discrete Neural Algorithmic Reasoning [18.497863598167257]
本稿では,有限状態の組合せとして,ニューラル推論器に実行軌跡の維持を強制することを提案する。
アルゴリズムの状態遷移の監督で訓練されたモデルでは、元のアルゴリズムと完全に整合することができる。
論文 参考訳(メタデータ) (2024-02-18T16:03:04Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Fast Training of NMT Model with Data Sorting [0.0]
Transformerモデルはニューラルマシン翻訳などの自然言語処理タスクに革命をもたらした。
改善の潜在的領域の1つは、Transformerが計算した空のトークンの研究に対処し、後に破棄することである。
本稿では,翻訳前の文長に基づいて文対をソートするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-16T05:48:50Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - CC-FedAvg: Computationally Customized Federated Averaging [11.687451505965655]
フェデレートラーニング(FL)は、多くのIoTデバイスから分散データでモデルをトレーニングするための新興パラダイムである。
計算集約的な反復を伴わずに局所モデルを推定する手法を提案する。
CC-FedAvgはリソース制約なしでFedAvgと同じ収束率と同等の性能を示す。
論文 参考訳(メタデータ) (2022-12-28T03:32:29Z) - Berrut Approximated Coded Computing: Straggler Resistance Beyond
Polynomial Computing [34.69732430310801]
本稿では,ストラグラー効果に対処する代替手法として,Berrut Approximated Coded Computing (BACC)を提案する。
BACCは計算複雑性が低い数値的に安定であることが証明されている。
特に、BACCは、サーバのクラスタ上でディープニューラルネットワークをトレーニングするために使用される。
論文 参考訳(メタデータ) (2020-09-17T14:23:38Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。