論文の概要: Distil-xLSTM: Learning Attention Mechanisms through Recurrent Structures
- arxiv url: http://arxiv.org/abs/2503.18565v1
- Date: Mon, 24 Mar 2025 11:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:52.932798
- Title: Distil-xLSTM: Learning Attention Mechanisms through Recurrent Structures
- Title(参考訳): Distil-xLSTM:繰り返し構造による学習注意機構
- Authors: Abdoul Majid O. Thiombiano, Brahim Hnich, Ali Ben Mrad, Mohamed Wiem Mkaouer,
- Abstract要約: 大規模言語モデル(LLM)から知識を抽出して学習したxLSTMに基づく小言語モデル(SLM)であるDistil-xLSTMを提案する。
我々の Distil-xLSTM は, 逐次配列混合成分を用いた変圧器モデルアテンションパラメトリゼーションの近似に焦点を合わせ, 最小限のトレーニングで良好な結果を示す。
- 参考スコア(独自算出の注目度): 6.553328746906528
- License:
- Abstract: The current era of Natural Language Processing (NLP) is dominated by Transformer models. However, novel architectures relying on recurrent mechanisms, such as xLSTM and Mamba, have been proposed as alternatives to attention-based models. Although computation is done differently than with the attention mechanism mechanism, these recurrent models yield good results and sometimes even outperform state-of-the-art attention-based models. In this work, we propose Distil-xLSTM, an xLSTM-based Small Language Model (SLM) trained by distilling knowledge from a Large Language Model (LLM) that shows promising results while being compute and scale efficient. Our Distil-xLSTM focuses on approximating a transformer-based model attention parametrization using its recurrent sequence mixing components and shows good results with minimal training.
- Abstract(参考訳): 自然言語処理(NLP)の時代はトランスフォーマーモデルによって支配されている。
しかし、xLSTMやMambaのような繰り返し機構に依存する新しいアーキテクチャが注目モデルに代わるものとして提案されている。
計算はアテンション機構のメカニズムと異なるが、これらのリカレントモデルは良い結果をもたらし、時には最先端のアテンションベースモデルよりも優れる。
本研究では,xLSTMをベースとしたSmall Language Model (SLM) であるDistil-xLSTMを提案する。
我々の Distil-xLSTM は, 逐次混合成分を用いた変圧器モデルアテンションパラメトリゼーションの近似に焦点を合わせ, 最小限のトレーニングで良好な結果を示す。
関連論文リスト
- Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。
LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。
LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Pseudo-Label Training and Model Inertia in Neural Machine Translation [18.006833174265612]
ニューラルマシン翻訳(NMT)モデルは、小さな入力変更に敏感であり、リトレーニングやインクリメンタルモデル更新間で大きな変動を示す可能性がある。
本研究は,NMT(Pseudo-label Training, PLT)において, フォワード翻訳や自己学習の関連技術に共通する頻繁な手法について研究する。
品質の影響はよく文書化されていますが、あまり知られていない効果が浮かび上がっています。PLはモデルの安定性を高めて、モデルの更新や入力の摂動をモデル化します。
論文 参考訳(メタデータ) (2023-05-19T16:45:19Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Bidirectional LSTM-CRF Attention-based Model for Chinese Word
Segmentation [2.3991565023534087]
中国語単語セグメンテーションのための双方向LSTM-CRFアテンションベースモデルを提案する。
我々のモデルは、他のニューラルネットワークによるベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2021-05-20T11:46:53Z) - Compressing LSTM Networks by Matrix Product Operators [7.395226141345625]
Long Short Term Memory(LSTM)モデルは、多くの最先端自然言語処理(NLP)と音声強調(SE)アルゴリズムの構築ブロックである。
ここでは、量子多体物理学における量子状態の局所的相関を記述するMPO分解を紹介する。
LSTMモデルを置き換えるために,行列積演算子(MPO)に基づくニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-22T11:50:06Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - Difference Attention Based Error Correction LSTM Model for Time Series
Prediction [3.7990471017645855]
本稿では,差分注意型LSTMモデルと誤り訂正型LSTMモデルをそれぞれカスケード方式で組み合わせた時系列予測モデルを提案する。
新たな特徴と新たな原則学習フレームワークにより,時系列の予測精度を向上させることができる。
論文 参考訳(メタデータ) (2020-03-30T16:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。