論文の概要: SPMoE: Generate Multiple Pattern-Aware Outputs with Sparse Pattern
Mixture of Experts
- arxiv url: http://arxiv.org/abs/2108.07535v2
- Date: Wed, 18 Aug 2021 02:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-19 11:25:00.959575
- Title: SPMoE: Generate Multiple Pattern-Aware Outputs with Sparse Pattern
Mixture of Experts
- Title(参考訳): SPMoE: スパースパターン混合による複数パターン認識出力の生成
- Authors: Shaobo Cui, Xintong Bao, Xuming Lin, Zhongzhou Zhao, Ji Zhang, Wei
Zhou, Haiqing Chen
- Abstract要約: パターンの言語的概念を導入し、一対一のマッピングを複数の一対一マッピングに分解する。
各1対1マッピングは条件生成パターンに関連付けられ、SPMoEの専門家によってモデル化される。
パラフレーズ生成タスクにおけるSPMoEの性能を評価し,実験結果から,SPMoEは品質,パターンレベルの多様性,コーパスレベルの多様性のバランスが良好であることを証明した。
- 参考スコア(独自算出の注目度): 13.319594929903399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many generation tasks follow a one-to-many mapping relationship: each input
could be associated with multiple outputs. Existing methods like Conditional
Variational AutoEncoder(CVAE) employ a latent variable to model this
one-to-many relationship. However, this high-dimensional and dense latent
variable lacks explainability and usually leads to poor and uncontrollable
generations. In this paper, we innovatively introduce the linguistic concept of
pattern to decompose the one-to-many mapping into multiple one-to-one mappings
and further propose a model named Sparse Pattern Mixture of Experts(SPMoE).
Each one-to-one mapping is associated with a conditional generation pattern and
is modeled with an expert in SPMoE. To ensure each language pattern can be
exclusively handled with an expert model for better explainability and
diversity, a sparse mechanism is employed to coordinate all the expert models
in SPMoE. We assess the performance of our SPMoE on the paraphrase generation
task and the experiment results prove that SPMoE can achieve a good balance in
terms of quality, pattern-level diversity, and corpus-level diversity.
- Abstract(参考訳): 多くの生成タスクは1対1のマッピング関係に従い、各入力は複数の出力に関連付けられる。
Conditional Variational AutoEncoder(CVAE)のような既存の手法では、この1対多の関係をモデル化するために潜在変数を使用する。
しかし、この高次元で密度の高い潜伏変数は説明可能性に欠け、通常は貧弱で制御不能な世代につながる。
本稿では,1対1マッピングを複数の1対1マッピングに分解するパターンの言語概念を革新的に導入し,さらにsparse pattern mix of experts (spmoe) というモデルを提案する。
各1対1マッピングは条件生成パターンと関連付けられ、SPMoEの専門家によってモデル化される。
説明性と多様性を向上させるために、各言語パターンを専門家モデルと排他的に扱うことができるようにするため、spmoe内のすべての専門家モデルを調整するためにスパース機構が使用される。
パラフレーズ生成タスクにおけるSPMoEの性能を評価し,実験結果から,SPMoEは品質,パターンレベルの多様性,コーパスレベルの多様性のバランスが良好であることを証明した。
関連論文リスト
- Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Learning multi-modal generative models with permutation-invariant encoders and tighter variational objectives [5.549794481031468]
マルチモーダルデータに対する深い潜伏変数モデルの開発は、機械学習研究において長年のテーマであった。
本研究では,データログ類似度を厳密に近似できる変動目標について考察する。
我々は,PoE や MoE のアプローチにおける帰納バイアスを回避するために,より柔軟なアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2023-09-01T10:32:21Z) - Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners [74.92558307689265]
専門家グループ("スクワッド")にモジュール化された新しいモデルであるMod-Squadを提案する。
単一モデルのトレーニング中に、このマッチングプロセスを最適化する。
13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットの実験は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-12-15T18:59:52Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z) - Multimodal Variational Autoencoders for Semi-Supervised Learning: In
Defense of Product-of-Experts [15.53942454688811]
所望の特性を持つ多変量オートエンコーダの製品群(PoE)を評価した。
経験的評価は、PoEベースのモデルが添加性混合(MoE)アプローチより優れていることを示している。
論文 参考訳(メタデータ) (2021-01-18T18:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。