論文の概要: Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture
- arxiv url: http://arxiv.org/abs/2412.11834v1
- Date: Mon, 16 Dec 2024 14:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:49.565998
- Title: Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture
- Title(参考訳): Wonderful Matrices: より効率的で効果的な基礎モデルアーキテクチャのための組み合わせ
- Authors: Jingze Shi, Bingheng Wu,
- Abstract要約: 状態空間双対性アルゴリズムに回転位置を埋め込むことが可能であることを示し、これは2次因果自己アテンションと状態空間双対性の組み合わせの複雑さを4%以上減少させる。
次に,より難易度の高いマルチクエリ・アソシエイト・リコールタスクにおいて,100%の精度を維持するダイナミックマスクアテンションを提案する。
第3に、専門家のクロスドメイン混在を設計し、専門家の混在の8倍から10倍の速さで1024人以上の専門家による専門家検索の計算速度を向上する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In order to make the foundation model more efficient and effective, our idea is combining sequence transformation and state transformation. First, we prove the availability of rotary position embedding in the state space duality algorithm, which reduces the perplexity of the hybrid quadratic causal self-attention and state space duality by more than 4%, to ensure that the combining sequence transformation unifies position encoding. Second, we propose dynamic mask attention, which maintains 100% accuracy in the more challenging multi-query associative recall task, improving by more than 150% compared to quadratic causal self-attention and state space duality, to ensure that the combining sequence transformation selectively filters relevant information. Third, we design cross domain mixture of experts, which makes the computational speed of expert retrieval with more than 1024 experts 8 to 10 times faster than the mixture of experts, to ensure that the combining state transformation quickly retrieval mixture. Finally, we summarize these matrix algorithms that can form the foundation model: Wonderful Matrices, which can be a competitor to popular model architectures.
- Abstract(参考訳): 基礎モデルをより効率的かつ効果的にするために、我々はシーケンス変換と状態変換を組み合わせることを考えています。
まず,2次因果自己アテンションと状態空間アテンションのパープレキシティを4%以上低減する状態空間双対アルゴリズムに,回転位置の埋め込みが可能であることを証明し,結合配列変換が位置符号化を統一することを保証する。
次に,2次因果自己アテンションと状態空間の双対性よりも150%以上向上し,結合配列変換が関連する情報を選択的にフィルタリングすることを保証するために,より困難なマルチクエリ・アソシエイト・リコールタスクにおいて100%の精度を維持する動的マスクアテンションを提案する。
第3に、専門家のクロスドメイン混合を設計し、1024人以上の専門家によるエキスパート検索の計算速度を専門家の8倍から10倍にし、コンバインド状態変換の高速化を確実にする。
最後に、これらの行列アルゴリズムを要約し、基礎モデルを形成することができる: Wonderful Matrices。
関連論文リスト
- Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasks [4.616793317473251]
本稿では,動的マスクを用いた内部関数注意法を提案し,注意アルゴリズムの表現性を向上する。
我々はまた、スパース活性化フィードフォワードネットワークの粒度を改善することができる専門家のクロスドメイン混合物を設計する。
我々は、言語モデリングタスクの実験を行い、Wonderful Matricesは複雑な言語タスクの処理においてより効率的で効果的であることを示す。
論文 参考訳(メタデータ) (2024-07-24T02:52:02Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。