論文の概要: Mixture of Experts Using Tensor Products
- arxiv url: http://arxiv.org/abs/2405.16671v1
- Date: Sun, 26 May 2024 19:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:58:15.964920
- Title: Mixture of Experts Using Tensor Products
- Title(参考訳): テンソル製品を用いたエキスパートの混合
- Authors: Zhan Su, Fengran Mo, Prayag Tiwari, Benyou Wang, Jian-Yun Nie, Jakob Grue Simonsen,
- Abstract要約: マルチタスク学習では、従来の手法では複数のタスクでモデルを同時にトレーニングする。
モジュール型言語モデルが肯定的伝達と体系的一般化を促進できるかどうかを検討する。
具体的には、パラメータ効率とニュアンス付きルーティング手法のバランスをとる新しいモジュラー言語モデル(textttTensorPoly)を提案する。
- 参考スコア(独自算出の注目度): 44.816454454687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-task learning, the conventional approach involves training a model on multiple tasks simultaneously. However, the training signals from different tasks can interfere with one another, potentially leading to \textit{negative transfer}. To mitigate this, we investigate if modular language models can facilitate positive transfer and systematic generalization. Specifically, we propose a novel modular language model (\texttt{TensorPoly}), that balances parameter efficiency with nuanced routing methods. For \textit{modules}, we reparameterize Low-Rank Adaptation (\texttt{LoRA}) by employing an entangled tensor through the use of tensor product operations and name the resulting approach \texttt{TLoRA}. For \textit{routing function}, we tailor two innovative routing functions according to the granularity: \texttt{TensorPoly-I} which directs to each rank within the entangled tensor while \texttt{TensorPoly-II} offers a finer-grained routing approach targeting each order of the entangled tensor. The experimental results from the multi-task T0-benchmark demonstrate that: 1) all modular LMs surpass the corresponding dense approaches, highlighting the potential of modular language models to mitigate negative inference in multi-task learning and deliver superior outcomes. 2) \texttt{TensorPoly-I} achieves higher parameter efficiency in adaptation and outperforms other modular LMs, which shows the potential of our approach in multi-task transfer learning.
- Abstract(参考訳): マルチタスク学習では、従来の手法では複数のタスクでモデルを同時にトレーニングする。
しかし、異なるタスクからのトレーニング信号は互いに干渉し、潜在的に \textit{ negative transfer} につながる可能性がある。
これを軽減するために,モジュール型言語モデルが肯定的伝達と体系的一般化を促進できるかどうかを検討する。
具体的には、パラメータ効率とニュアンス付きルーティング手法のバランスをとる新しいモジュラー言語モデル(\texttt{TensorPoly})を提案する。
textit{modules} に対して、テンソル積演算を用いて絡み合ったテンソルを用いて低ランク適応(\texttt{LoRA})を再パラメータ化し、結果として生じるアプローチを \texttt{TLoRA} と呼ぶ。
角テンソル内の各ランクを指示する \texttt{TensorPoly-I} と、角テンソルの各順序を対象とするよりきめ細かいルーティングアプローチを提供する \textt{TensorPoly-II} である。
マルチタスクT0ベンチマークによる実験結果は以下のとおりである。
1) マルチタスク学習における負の推論を緩和し,優れた結果をもたらすモジュール型言語モデルの可能性を強調した。
2) <texttt{TensorPoly-I} は適応におけるパラメータ効率の向上を実現し,マルチタスク変換学習におけるアプローチの可能性を示す。
関連論文リスト
- When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Composing Parameter-Efficient Modules with Arithmetic Operations [20.119291936493788]
重み空間における線形算術演算によりパラメータ効率のよい加群を構成することを提案する。
このアプローチでは、Emphnoの追加トレーニングが必要で、高度にフレキシブルなモジュール構成を可能にします。
LLaMAをベースとした最新の命令調整型大規模言語モデルであるAlpaca-LoRAをデトックス化するアプローチを拡張した。
論文 参考訳(メタデータ) (2023-06-26T17:33:21Z) - Tensorized LSSVMs for Multitask Regression [48.844191210894245]
マルチタスク学習(MTL)は、複数のタスク間の関連性を利用してパフォーマンスを向上させる。
低ランクテンソル解析とLast Squares Support Vectorized Least Squares Support Vectorized tLSSVM-MTLを利用する。
論文 参考訳(メタデータ) (2023-03-04T16:36:03Z) - Multimodal Sequential Generative Models for Semi-Supervised Language
Instruction Following [26.386772715777223]
本稿では,タスクの指示における半教師付き学習のためのマルチモーダル生成モデルを提案する。
モデルは、ペア化されたデータの共有表現を学習し、未ペアデータの再構築によって半教師付き学習を可能にする。
BabyAIおよびRoom-to-Room環境における実験により,提案手法は未ペアデータを活用することにより,命令の処理性能を向上させることを示した。
論文 参考訳(メタデータ) (2022-12-29T03:23:43Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。