Fugu-MT 論文翻訳(概要): Bottleneck Low-rank Transformers for Low-resource Spoken Language Understanding

論文の概要: Bottleneck Low-rank Transformers for Low-resource Spoken Language Understanding

arxiv url: http://arxiv.org/abs/2206.14318v1
Date: Tue, 28 Jun 2022 23:08:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-30 20:08:35.627538
Title: Bottleneck Low-rank Transformers for Low-resource Spoken Language Understanding
Title（参考訳）: 低リソース音声理解のためのボトルネック低ランクトランスフォーマ
Authors: Pu Wang and Hugo Van hamme
Abstract要約: エンド・ツー・エンドの音声言語理解(SLU)システムは、大規模コーパスの事前学習の恩恵を受ける。本稿では,グループ間隔を用いてアテンション機構の寸法を自動的に低減するリーントランスフォーマー構造を提案する。低リソース環境では、事前訓練なしで、結果として得られるコンパクトなSLUモデルは、事前訓練された大規模モデルと競合する精度を達成する。
参考スコア（独自算出の注目度）: 18.74313633839357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end spoken language understanding (SLU) systems benefit from pretraining on large corpora, followed by fine-tuning on application-specific data. The resulting models are too large for on-edge applications. For instance, BERT-based systems contain over 110M parameters. Observing the model is overparameterized, we propose lean transformer structure where the dimension of the attention mechanism is automatically reduced using group sparsity. We propose a variant where the learned attention subspace is transferred to an attention bottleneck layer. In a low-resource setting and without pre-training, the resulting compact SLU model achieves accuracies competitive with pre-trained large models.
Abstract（参考訳）: エンド・ツー・エンドの音声言語理解(SLU)システムは、大規模コーパスの事前学習の恩恵を受ける。結果として得られるモデルは、オンプレミスアプリケーションには大きすぎる。例えば、bertベースのシステムは110m以上のパラメータを含む。モデルが過度にパラメータ化されていることを観測し,グループスパルシティを用いて注意機構の次元を自動低減するリーントランスフォーマ構造を提案する。学習した注目部分空間を注目ボトルネック層に転送する変種を提案する。低リソース環境では、事前訓練なしで、結果として得られるコンパクトなSLUモデルは、事前訓練された大規模モデルと競合する精度を達成する。

関連論文リスト

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction [16.426476430697587]
本稿では,ボトルネックトランスフォーマアーキテクチャを用いて,STOI(Short-Time Objective Intelligibility)メトリクスを予測する新しい手法を提案する。両シナリオの相関性は高く,平均2乗誤差は低かった。
論文参考訳（メタデータ） (2026-02-17T10:46:54Z)
Transport and Merge: Cross-Architecture Merging for Large Language Models [59.53629883788284]
大規模言語モデル(LLM)は、モデルのキャパシティのスケーリングとデータのトレーニングによって、強力な能力を達成する。多くの実世界のデプロイメントは、低リソースデータからトレーニングされたり、適応されたりした小さなモデルに依存している。このギャップは、大規模で高リソースのモデルから小さな低リソースのターゲットに知識を伝達するメカニズムの必要性を動機付けている。
論文参考訳（メタデータ） (2026-02-05T09:57:57Z)
Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文参考訳（メタデータ） (2025-11-25T14:20:08Z)
LOST: Low-rank and Sparse Pre-training for Large Language Models [28.81360343891614]
大規模言語モデルでは、スクラッチから事前学習するための計算とメモリのコストが禁じられている。 LLMのためのtextbfLOw-rank と textbfSparse pre-textbfTraining (textbfLOST) を提案する。
論文参考訳（メタデータ） (2025-08-04T17:58:22Z)
TensorSLM: Energy-efficient Embedding Compression of Sub-billion Parameter Language Models on Low-end Devices [19.897367559948336]
本論文では,Train Decomposition (TTD) を用いたトレーニングフリートークン埋め込み圧縮手法を提案する。典型的なローエンドデバイスであるRaspberry Pi上で,圧縮率,言語タスク性能,レイテンシ,省エネ性を考慮した低ランク構造の評価を行った。
論文参考訳（メタデータ） (2025-06-16T14:09:43Z)
Rethinking Data: Towards Better Performing Domain-Specific Small Language Models [0.0]
本稿では,小言語モデル(LM)の微調整について述べる。 LMトレーニングパイプラインの各段階でのデータ品質を改善することで、これを実現する。我々は、異なるデータサブセット上の異なるパラメータで微調整されたモデルをマージすることで、モデル一般化能力を向上させる。
論文参考訳（メタデータ） (2025-03-03T12:19:12Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
SpaFL: Communication-Efficient Federated Learning with Sparse Models and Low computational Overhead [75.87007729801304]
SpaFL: 計算オーバーヘッドの少ないスパースモデル構造を最適化する通信効率のよいFLフレームワークを提案する。実験により、スパースベースラインに比べて通信やコンピューティングリソースをはるかに少なくし、精度を向上することが示された。
論文参考訳（メタデータ） (2024-06-01T13:10:35Z)
LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文参考訳（メタデータ） (2024-04-15T11:53:22Z)
Federated Full-Parameter Tuning of Billion-Sized Language Models with Communication Cost under 18 Kilobytes [53.4856038354195]
事前訓練された大規模言語モデル(LLM)は、自然言語命令に対する応答性を改善するために微調整が必要である。 FedKSeedは、ランダムシードの有限セットによるゼロ階最適化を採用している。サーバとクライアント間の通信要求を大幅に減らし、ランダムなシードをわずかに減らします。
論文参考訳（メタデータ） (2023-12-11T13:03:21Z)
Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文参考訳（メタデータ） (2023-10-06T01:59:19Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文参考訳（メタデータ） (2023-03-18T17:56:01Z)
Training Large-Vocabulary Neural Language Models by Private Federated Learning for Resource-Constrained Devices [14.604785223644718]
Federated Learning(FL)は、デバイスに分散したデータを使ってモデルをトレーニングするテクニックである。差分プライバシー(DP)は、機密データに対して正式なプライバシー保証を提供する。ペイロードサイズを小さくすることでノイズを低減できる部分埋め込み更新(PEU)を提案する。
論文参考訳（メタデータ） (2022-07-18T23:53:17Z)
Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-30T06:32:47Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。