論文の概要: Cheems: Wonderful Matrices More Efficient and More Effective Architecture
- arxiv url: http://arxiv.org/abs/2407.16958v1
- Date: Wed, 24 Jul 2024 02:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:53:14.781147
- Title: Cheems: Wonderful Matrices More Efficient and More Effective Architecture
- Title(参考訳): Cheems: 素晴らしい行列がより効率的で効果的なアーキテクチャになる
- Authors: Jingze Shi, Lu He, Yuhan Wang, Tianyu He, Bingheng Wu, Mingkun Hou,
- Abstract要約: 構造化状態空間双対アルゴリズムにおける異なる位置符号化の有効性と、より効率的なSSD-Attn内部および外部関数混合法について検討した。
同じマトリックスは、異なるアルゴリズムで非常に素晴らしいので、新しいハイブリッドスパースアーキテクチャ(Cheems)を確立することができます。
- 参考スコア(独自算出の注目度): 9.922732368561189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that, relative position encoding performs well in selective state space model scanning algorithms, and the architecture that balances SSM and Attention enhances the efficiency and effectiveness of the algorithm, while the sparse activation of the mixture of experts reduces the training cost. I studied the effectiveness of using different position encodings in structured state space dual algorithms, and the more effective SSD-Attn internal and external function mixing method, and designed a more efficient cross domain mixture of experts. I found that the same matrix is very wonderful in different algorithms, which allows us to establish a new hybrid sparse architecture: Cheems. Compared with other hybrid architectures, it is more efficient and more effective in language modeling tasks.
- Abstract(参考訳): 近年の研究では、相対的な位置符号化は選択的な状態空間モデルスキャンアルゴリズムにおいて良好に機能し、SSMと注意のバランスをとるアーキテクチャはアルゴリズムの効率と有効性を高める一方で、専門家の混合物の疎活性化はトレーニングコストを削減することが示されている。
構造化状態空間双対アルゴリズムにおける異なる位置符号化の有効性と、より効率的なSSD-Attn内部および外部関数混合法について検討し、より効率的なクロスドメイン混合の設計を行った。
同じマトリックスは、異なるアルゴリズムで非常に素晴らしいので、新しいハイブリッドスパースアーキテクチャ(Cheems)を確立することができます。
他のハイブリッドアーキテクチャと比較すると、言語モデリングタスクではより効率的で効果的です。
関連論文リスト
- Efficiently Scanning and Resampling Spatio-Temporal Tasks with Irregular Observations [13.491183255489396]
本稿では,2次元の潜伏状態と観測値の交叉アテンションを交互に交互に行うアルゴリズムを提案する。
提案アルゴリズムは,従来の手法と比較して,パラメータカウントが低く,トレーニングや推論が高速である場合に比較して精度が向上する。
論文 参考訳(メタデータ) (2024-10-11T10:11:31Z) - EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。
本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。
TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文 参考訳(メタデータ) (2024-09-22T21:08:37Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。
本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。
85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文 参考訳(メタデータ) (2022-07-14T07:15:06Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z) - OASIS: An Active Framework for Set Inversion [4.014524824655106]
本稿では,二項分類問題として定式化することで,集合反転問題の解法を提案する。
従来の学習手法に比べて少ないデータポイントで同じレベルの精度を達成できる、新しい強力なテクニックのファミリーであるアクティブラーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-05-31T15:04:43Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。