論文の概要: Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasks
- arxiv url: http://arxiv.org/abs/2407.16958v6
- Date: Tue, 12 Nov 2024 01:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:23.159237
- Title: Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasks
- Title(参考訳): Wonderful Matrices: 言語モデリングタスクのためのより効率的で効果的なアーキテクチャ
- Authors: Jingze Shi, Bingheng Wu, Lu He, Luchang Jiang,
- Abstract要約: 本稿では,動的マスクを用いた内部関数注意法を提案し,注意アルゴリズムの表現性を向上する。
我々はまた、スパース活性化フィードフォワードネットワークの粒度を改善することができる専門家のクロスドメイン混合物を設計する。
我々は、言語モデリングタスクの実験を行い、Wonderful Matricesは複雑な言語タスクの処理においてより効率的で効果的であることを示す。
- 参考スコア(独自算出の注目度): 4.616793317473251
- License:
- Abstract: We prove the availability of inner product form position encoding in the state space dual algorithm and study the effectiveness of different position embeddings in the hybrid quadratic causal self-attention and state space dual algorithms. We propose inner function attention with dynamic mask, which can improve the expressiveness of the attention algorithm and avoid the sequence noise significantly affecting the accuracy of the attention score. We also design cross domain mixture of experts, which can improve the granularity of the sparse activation feedforward network while maintaining the efficiency of parameter utilization and retrieval. The combination of these methods constitutes our foundation model architecture: Wonderful Matrices. We conduct experiments on the language modeling task and find that Wonderful Matrices are more efficient and effective in handling complex language tasks.
- Abstract(参考訳): 本研究では、状態空間双対アルゴリズムにおける内積形状位置符号化の可用性を証明し、ハイブリッド二次因果自己アテンションと状態空間双対アルゴリズムにおける異なる位置埋め込みの有効性について検討する。
本研究では,動的マスキングを用いた内部機能アテンションを提案し,アテンションアルゴリズムの表現性を向上し,アテンションスコアの精度に大きく影響するシーケンスノイズを回避する。
また、パラメータ利用と検索の効率を維持しつつ、スパース活性化フィードフォワードネットワークの粒度を向上できる専門家のクロスドメイン混合物を設計する。
これらの手法の組み合わせは、我々の基礎モデルアーキテクチャを構成する。
我々は、言語モデリングタスクの実験を行い、Wonderful Matricesは複雑な言語タスクの処理においてより効率的で効果的であることを示す。
関連論文リスト
- Efficiently Scanning and Resampling Spatio-Temporal Tasks with Irregular Observations [13.491183255489396]
本稿では,2次元の潜伏状態と観測値の交叉アテンションを交互に交互に行うアルゴリズムを提案する。
提案アルゴリズムは,従来の手法と比較して,パラメータカウントが低く,トレーニングや推論が高速である場合に比較して精度が向上する。
論文 参考訳(メタデータ) (2024-10-11T10:11:31Z) - EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。
本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。
TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文 参考訳(メタデータ) (2024-09-22T21:08:37Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。
本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。
85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文 参考訳(メタデータ) (2022-07-14T07:15:06Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z) - OASIS: An Active Framework for Set Inversion [4.014524824655106]
本稿では,二項分類問題として定式化することで,集合反転問題の解法を提案する。
従来の学習手法に比べて少ないデータポイントで同じレベルの精度を達成できる、新しい強力なテクニックのファミリーであるアクティブラーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-05-31T15:04:43Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。