Fugu-MT 論文翻訳(概要): Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasks

論文の概要: Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasks

arxiv url: http://arxiv.org/abs/2407.16958v6
Date: Tue, 12 Nov 2024 01:31:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.569932
Title: Wonderful Matrices: More Efficient and Effective Architecture for Language Modeling Tasks
Title（参考訳）: Wonderful Matrices: 言語モデリングタスクのためのより効率的で効果的なアーキテクチャ
Authors: Jingze Shi, Bingheng Wu, Lu He, Luchang Jiang,
Abstract要約: 本稿では,動的マスクを用いた内部関数注意法を提案し,注意アルゴリズムの表現性を向上する。我々はまた、スパース活性化フィードフォワードネットワークの粒度を改善することができる専門家のクロスドメイン混合物を設計する。我々は、言語モデリングタスクの実験を行い、Wonderful Matricesは複雑な言語タスクの処理においてより効率的で効果的であることを示す。
参考スコア（独自算出の注目度）: 4.616793317473251
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We prove the availability of inner product form position encoding in the state space dual algorithm and study the effectiveness of different position embeddings in the hybrid quadratic causal self-attention and state space dual algorithms. We propose inner function attention with dynamic mask, which can improve the expressiveness of the attention algorithm and avoid the sequence noise significantly affecting the accuracy of the attention score. We also design cross domain mixture of experts, which can improve the granularity of the sparse activation feedforward network while maintaining the efficiency of parameter utilization and retrieval. The combination of these methods constitutes our foundation model architecture: Wonderful Matrices. We conduct experiments on the language modeling task and find that Wonderful Matrices are more efficient and effective in handling complex language tasks.
Abstract（参考訳）: 本研究では、状態空間双対アルゴリズムにおける内積形状位置符号化の可用性を証明し、ハイブリッド二次因果自己アテンションと状態空間双対アルゴリズムにおける異なる位置埋め込みの有効性について検討する。本研究では,動的マスキングを用いた内部機能アテンションを提案し,アテンションアルゴリズムの表現性を向上し,アテンションスコアの精度に大きく影響するシーケンスノイズを回避する。また、パラメータ利用と検索の効率を維持しつつ、スパース活性化フィードフォワードネットワークの粒度を向上できる専門家のクロスドメイン混合物を設計する。これらの手法の組み合わせは、我々の基礎モデルアーキテクチャを構成する。我々は、言語モデリングタスクの実験を行い、Wonderful Matricesは複雑な言語タスクの処理においてより効率的で効果的であることを示す。

関連論文リスト

Efficient Attention Mechanisms for Large Language Models: A Survey [18.86171225316892]
トランスフォーマーベースのアーキテクチャは、大規模言語モデルの一般的な計算バックボーンとなっている。最近の研究は、効率的な注意機構の2つの主要なカテゴリを紹介している。対照的に、スパースアテンションテクニックは、固定パターン、ブロックワイドルーティング、クラスタリング戦略に基づいて、選択されたトークンのサブセットに注意を限定する。
論文参考訳（メタデータ） (2025-07-25T18:08:10Z)
Assessing an evolutionary search engine for small language models, prompts, and evaluation metrics [0.0]
言語モデルと命令プロンプトの同時最適化は、効率的で効果的なAIシステムをデプロイする上で大きな課題となる。本稿では,この複雑な空間をナビゲートするために設計された双方向進化型検索エンジンを紹介し,評価する。 NSGA-IIアルゴリズムを用いて,タスクの精度とトークン効率の同時最適化を行う。
論文参考訳（メタデータ） (2025-06-26T17:36:23Z)
Learning Multi-Robot Coordination through Locality-Based Factorized Multi-Agent Actor-Critic Algorithm [54.98788921815576]
我々は,textbfLocalityをベースとしたtextbfFactorized textbfMulti-Agent textbfActor-textbfCritic (Loc-FACMAC) という新しい協調型マルチエージェント強化学習法を提案する。我々は、局所性の概念を批判的学習に統合し、トレーニング中に強く関連するロボットが分割を形成する。提案手法は,局所的な報酬に着目し,分割型学習を活用して既存のアルゴリズムを改良し,学習効率と性能を向上させる。
論文参考訳（メタデータ） (2025-03-24T16:00:16Z)
iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文参考訳（メタデータ） (2025-03-20T19:10:37Z)
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture [0.0]
状態空間双対性アルゴリズムに回転位置を埋め込むことが可能であることを示し、これは2次因果自己アテンションと状態空間双対性の組み合わせの複雑さを4%以上減少させる。次に,より難易度の高いマルチクエリ・アソシエイト・リコールタスクにおいて,100%の精度を維持するダイナミックマスクアテンションを提案する。第3に、専門家のクロスドメイン混在を設計し、専門家の混在の8倍から10倍の速さで1024人以上の専門家による専門家検索の計算速度を向上する。
論文参考訳（メタデータ） (2024-12-16T14:56:28Z)
Efficiently Scanning and Resampling Spatio-Temporal Tasks with Irregular Observations [13.491183255489396]
本稿では,2次元の潜伏状態と観測値の交叉アテンションを交互に交互に行うアルゴリズムを提案する。提案アルゴリズムは,従来の手法と比較して,パラメータカウントが低く,トレーニングや推論が高速である場合に比較して精度が向上する。
論文参考訳（メタデータ） (2024-10-11T10:11:31Z)
EchoAtt: Attend, Copy, then Adjust for More Efficient Large Language Models [29.57891007810509]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて優れた性能を示している。本稿では,レイヤ間の注目パターンの類似性を解析し,活用することにより,トランスフォーマーベースモデルの最適化を目的とした,新しいフレームワークであるEchoAttを紹介する。 TinyLLaMA-1.1Bによる最良の結果は、EchoAttが推論速度を15%改善し、トレーニング速度を25%改善し、パラメータ数を約4%削減し、ゼロショット性能を改善したことを示している。
論文参考訳（メタデータ） (2024-09-22T21:08:37Z)
Concrete Subspace Learning based Interference Elimination for Multi-task Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文参考訳（メタデータ） (2023-12-11T07:24:54Z)
Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文参考訳（メタデータ） (2023-06-21T16:04:03Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)
Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。 85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文参考訳（メタデータ） (2022-07-14T07:15:06Z)
Tree ensemble kernels for Bayesian optimization with known constraints over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文参考訳（メタデータ） (2022-07-02T16:59:37Z)
OASIS: An Active Framework for Set Inversion [4.014524824655106]
本稿では,二項分類問題として定式化することで,集合反転問題の解法を提案する。従来の学習手法に比べて少ないデータポイントで同じレベルの精度を達成できる、新しい強力なテクニックのファミリーであるアクティブラーニングに重点を置いている。
論文参考訳（メタデータ） (2021-05-31T15:04:43Z)
Effective Unsupervised Domain Adaptation with Adversarially Trained Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文参考訳（メタデータ） (2020-10-05T01:49:47Z)
Masking as an Efficient Alternative to Finetuning for Pretrained Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文参考訳（メタデータ） (2020-04-26T15:03:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。