論文の概要: BabyHGRN: Exploring RNNs for Sample-Efficient Training of Language Models
- arxiv url: http://arxiv.org/abs/2412.15978v1
- Date: Fri, 20 Dec 2024 15:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:13.378817
- Title: BabyHGRN: Exploring RNNs for Sample-Efficient Training of Language Models
- Title(参考訳): BabyHGRN: 言語モデルのサンプル効率向上のためのRNN探索
- Authors: Patrick Haller, Jonas Golde, Alan Akbik,
- Abstract要約: 我々は最近提案された RNN ベースのアーキテクチャである HGRN2 (Qin et al., 2024) を利用して、トランスフォーマーベースのベースラインに対する効果を相対的に評価する。
実験の結果,HGRN2言語モデルであるBABYHGRNは10Mと100Mのワードトラックにおいてトランスフォーマーモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 3.287942619833188
- License:
- Abstract: This paper explores the potential of recurrent neural networks (RNNs) and other subquadratic architectures as competitive alternatives to transformer-based models in low-resource language modeling scenarios. We utilize HGRN2 (Qin et al., 2024), a recently proposed RNN-based architecture, and comparatively evaluate its effectiveness against transformer-based baselines and other subquadratic architectures (LSTM, xLSTM, Mamba). Our experimental results show that BABYHGRN, our HGRN2 language model, outperforms transformer-based models in both the 10M and 100M word tracks of the challenge, as measured by their performance on the BLiMP, EWoK, GLUE and BEAR benchmarks. Further, we show the positive impact of knowledge distillation. Our findings challenge the prevailing focus on transformer architectures and indicate the viability of RNN-based models, particularly in resource-constrained environments.
- Abstract(参考訳): 本稿では、低リソース言語モデリングシナリオにおけるトランスフォーマーモデルに対する競合的な代替手段として、リカレントニューラルネットワーク(RNN)や他のサブクアッドラティックアーキテクチャの可能性について検討する。
我々は最近提案されたRNNベースアーキテクチャであるHGRN2(Qin et al , 2024)を利用し、トランスフォーマーベースベースラインや他のサブクアッドラティックアーキテクチャ(LSTM, xLSTM, Mamba)に対する効果を比較検討した。
我々のHGRN2言語モデルであるBABYHGRNは,BLiMP,EWoK,GLUE,BEARベンチマークで評価した結果,10M,100Mワードトラックにおいてトランスフォーマベースモデルを上回る性能を示した。
さらに, 知識蒸留の正の効果を示す。
我々の研究はトランスフォーマーアーキテクチャに重点を置いており、特に資源制約のある環境でのRNNモデルの実現可能性を示している。
関連論文リスト
- Does Transformer Interpretability Transfer to RNNs? [0.6437284704257459]
近年のリカレントニューラルネットワークアーキテクチャの進歩により、RNNは等サイズトランスの性能に適合または超えることが可能になった。
本稿では,RNNの圧縮状態を利用して,これらの手法のいくつかを改善することができることを示す。
論文 参考訳(メタデータ) (2024-04-09T02:59:17Z) - SDiT: Spiking Diffusion Model with Transformer [1.7630597106970465]
スパイキングニューラルネットワーク(SNN)は消費電力が低く、生物解釈可能な特性を持つ。
我々は、主流拡散モデルにおいてよく使われるU-net構造を置き換えるためにトランスフォーマーを利用する。
比較的低い計算コストと短いサンプリング時間で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2024-02-18T13:42:11Z) - Towards Robust k-Nearest-Neighbor Machine Translation [72.9252395037097]
近年,k-Nearest-Neighbor Machine Translation (kNN-MT)がNMTの重要な研究方向となっている。
その主なアイデアは、NMTモデルを更新することなく翻訳を変更するために、追加のデータストアから有用なキーと値のペアを取得することである。
取り出したノイズペアはモデル性能を劇的に低下させる。
ノイズの影響を軽減するために,頑健なトレーニングを施した信頼性向上kNN-MTモデルを提案する。
論文 参考訳(メタデータ) (2022-10-17T07:43:39Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - ROOD-MRI: Benchmarking the robustness of deep learning segmentation
models to out-of-distribution and corrupted data in MRI [0.4839993770067469]
ROOD-MRIは、ディープ人工知能ニューラルネットワークの堅牢性をMRIデータ、破損、アーティファクトにベンチマークするプラットフォームである。
いくつかの大規模研究において,海馬,心室,白質の超強度セグメンテーションに本手法を適用した。
データ拡張戦略は解剖学的セグメンテーションタスクのOODデータに対するロバスト性を大幅に向上させることができるが、最近のDNNでは、より困難な病変ベースのセグメンテーションタスクではロバスト性に欠ける。
論文 参考訳(メタデータ) (2022-03-11T16:34:15Z) - Novel Hybrid DNN Approaches for Speaker Verification in Emotional and
Stressful Talking Environments [1.0998375857698495]
この研究は、深層モデルと浅いアーキテクチャを組み合わせることで、新しいハイブリッド分類器を生み出した。
ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)、ディープニューラルネットワーク-ガウス混合モデル(DNN-GMM)、隠れマルコフモデル-ディープニューラルネットワーク(HMM-DNN)の4つの異なるハイブリッドモデルが利用された。
その結果、HMM-DNNは、EER(Equal error rate)およびAUC(Equal curve)評価指標で他の全てのハイブリッドモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-26T10:47:14Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Ensembles of Spiking Neural Networks [0.3007949058551534]
本稿では,最先端の結果を生み出すスパイクニューラルネットワークのアンサンブルを構築する方法について述べる。
MNIST, NMNIST, DVS Gestureデータセットの分類精度は98.71%, 100.0%, 99.09%である。
我々は、スパイキングニューラルネットワークをGLM予測器として形式化し、ターゲットドメインに適した表現を識別する。
論文 参考訳(メタデータ) (2020-10-15T17:45:18Z) - Simplified Self-Attention for Transformer-based End-to-End Speech
Recognition [56.818507476125895]
本稿では,プロジェクション層の代わりにFSMNメモリブロックを用いてクエリとキーベクトルを生成する,簡易な自己アテンション層(SSAN)を提案する。
我々は,公的なAISHELL-1,1000時間内,20,000時間大規模マンダリンタスクにおけるSSANベースおよび従来のSANベースのトランスフォーマーの評価を行った。
論文 参考訳(メタデータ) (2020-05-21T04:55:59Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。