論文の概要: Sample-based Dynamic Hierarchical Transformer with Layer and Head
Flexibility via Contextual Bandit
- arxiv url: http://arxiv.org/abs/2312.03038v2
- Date: Tue, 12 Dec 2023 13:17:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 20:06:14.195560
- Title: Sample-based Dynamic Hierarchical Transformer with Layer and Head
Flexibility via Contextual Bandit
- Title(参考訳): コンテキスト帯域による層と頭部のフレキシビリティを有するサンプルベース動的階層変換器
- Authors: Fanfei Meng, Lele Zhang, Yu Chen, Yuxin Wang
- Abstract要約: トランスフォーマーは一定の数のレイヤーとヘッドを必要とし、個々のサンプルの複雑さに屈曲する。
本稿では,レイヤとヘッドを単一のデータサンプルで動的に設定できる動的階層変換モデルを提案する。
トレーニングと推論の両方で最大74%の計算節約を達成でき、精度は最小限です。
- 参考スコア(独自算出の注目度): 24.78757412559944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer requires a fixed number of layers and heads which makes them
inflexible to the complexity of individual samples and expensive in training
and inference. To address this, we propose a sample-based Dynamic Hierarchical
Transformer (DHT) model whose layers and heads can be dynamically configured
with single data samples via solving contextual bandit problems. To determine
the number of layers and heads, we use the Uniform Confidence Bound while we
deploy combinatorial Thompson Sampling in order to select specific head
combinations given their number. Different from previous work that focuses on
compressing trained networks for inference only, DHT is not only advantageous
for adaptively optimizing the underlying network architecture during training
but also has a flexible network for efficient inference. To the best of our
knowledge, this is the first comprehensive data-driven dynamic transformer
without any additional auxiliary neural networks that implement the dynamic
system. According to the experiment results, we achieve up to 74% computational
savings for both training and inference with a minimal loss of accuracy.
- Abstract(参考訳): トランスフォーマーは一定の数のレイヤーとヘッドを必要とし、個々のサンプルの複雑さに柔軟であり、トレーニングや推論の費用がかかる。
そこで,本稿では,サンプルベース動的階層型トランスフォーマ (dht) モデルを提案する。
層数と頭数を決定するために、組合せトンプソンサンプリング(英語版)を展開する間、統一された信頼度バウンドを使い、その数に応じて特定の頭の組み合わせを選択する。
推論のみのためにトレーニングされたネットワークを圧縮することに焦点を当てた以前の作業とは異なり、dhtはトレーニング中に基盤となるネットワークアーキテクチャを適応的に最適化するだけでなく、効率的な推論のための柔軟なネットワークを持つ。
私たちの知る限りでは、これは動的システムを実装する追加の補助ニューラルネットワークを使わずに、初めて包括的なデータ駆動動的トランスフォーマーである。
実験結果によると、精度の低下を最小限に抑えつつ、トレーニングと推論の両方で最大74%の計算節約を達成している。
関連論文リスト
- Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot [50.16171384920963]
トランスフォーマーアーキテクチャは 様々なディープラーニング環境で普及しています
勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
論文 参考訳(メタデータ) (2024-06-11T02:15:53Z) - Towards Optimal Customized Architecture for Heterogeneous Federated
Learning with Contrastive Cloud-Edge Model Decoupling [20.593232086762665]
フェデレートラーニングは、有望な分散学習パラダイムとして、中央データ収集を必要とせずに、複数のネットワークエッジクライアントにわたるグローバルモデルの協調トレーニングを可能にする。
我々はFedCMDと呼ばれる新しいフェデレーション学習フレームワークを提案する。
私たちのモチベーションは、パーソナライズされた頭として異なるニューラルネットワーク層を選択するパフォーマンスを深く調査することで、現在の研究でパーソナライズされた頭として最後の層を厳格に割り当てることが常に最適であるとは限らない、ということです。
論文 参考訳(メタデータ) (2024-03-04T05:10:28Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Hierarchical Over-the-Air FedGradNorm [50.756991828015316]
MTL(Multi-task Learning)は、単一の共有ネットワークで複数の関連するタスクを同時に学習する学習パラダイムである。
我々は,HOTA-FedGradNormと呼ばれる動的重み付け戦略を用いた階層的オーバー・ザ・エア(HOTA)PFLを提案する。
論文 参考訳(メタデータ) (2022-12-14T18:54:46Z) - Predictive Coding beyond Gaussian Distributions [38.51699576854394]
予測符号化(英: Predictive coding, PC)は、階層型ガウス生成モデルに基づく推論を行う神経科学に着想を得た手法である。
これらの手法は、複雑な層やアクティベーション関数のダイナミクスを複製できないため、現代のニューラルネットワークに従わない。
提案手法は,条件付き言語モデルにおいて,トランスフォーマネットワークをトレーニングし,BPに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-11-07T12:02:05Z) - Arbitrary Bit-width Network: A Joint Layer-Wise Quantization and
Adaptive Inference Approach [38.03309300383544]
そこで本研究では,データ依存動的推論を実現するために,様々な量子化方式で異なるデータサンプルを微細な層レベルで供給することを提案する。
本稿では,Arbitrary Bit-width Network(ABN)を提案する。
ImageNet分類では、36.2%のBitOpsを節約しながら、1.1%のトップ1の精度向上を実現しています。
論文 参考訳(メタデータ) (2022-04-21T09:36:43Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z) - Model Fusion of Heterogeneous Neural Networks via Cross-Layer Alignment [17.735593218773758]
CLAFusionと呼ばれる新しいモデル融合フレームワークを提案し、異なる層でニューラルネットワークを融合させる。
階層間のアライメントに基づいて、階層モデル融合を適用する前に、ニューラルネットワークの層数のバランスをとる。
論文 参考訳(メタデータ) (2021-10-29T05:02:23Z) - Shape Adaptor: A Learnable Resizing Module [59.940372879848624]
ニューラルネットワークのための新しいリサイズモジュール: 従来のリサイズ層上に構築されたドロップインエンハンスメントであるシェイプアダプタを提案する。
我々の実装では、追加の監督なしに形状適応器をエンドツーエンドで訓練することが可能です。
ネットワーク圧縮と伝達学習の2つの応用における形状適応器の有効性を示す。
論文 参考訳(メタデータ) (2020-08-03T14:15:52Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。