論文の概要: Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional
MoEs
- arxiv url: http://arxiv.org/abs/2206.04674v1
- Date: Thu, 9 Jun 2022 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 15:06:39.344914
- Title: Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional
MoEs
- Title(参考訳): Uni-Perceiver-MoE:条件付きMoEを用いたスパースジェネリストモデル学習
- Authors: Jinguo Zhu, Xizhou Zhu, Wenhai Wang, Xiaohua Wang, Hongsheng Li,
Xiaogang Wang, Jifeng Dai
- Abstract要約: 異なるタスクとモダリティ間の干渉が、この現象の主要な要因であることがわかった。
一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。
コード及び事前訓練されたジェネリストモデルは、解放される。
- 参考スコア(独自算出の注目度): 63.936622239286685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To build an artificial neural network like the biological intelligence
system, recent works have unified numerous tasks into a generalist model, which
can process various tasks with shared parameters and do not have any
task-specific modules. While generalist models achieve promising results on
various benchmarks, they have performance degradation on some tasks compared
with task-specialized models. In this work, we find that interference among
different tasks and modalities is the main factor to this phenomenon. To
mitigate such interference, we introduce the Conditional Mixture-of-Experts
(Conditional MoEs) to generalist models. Routing strategies under different
levels of conditions are proposed to take both the training/inference cost and
generalization ability into account. By incorporating the proposed Conditional
MoEs, the recently proposed generalist model Uni-Perceiver can effectively
mitigate the interference across tasks and modalities, and achieves
state-of-the-art results on a series of downstream tasks via prompt tuning on
1% of downstream data. Moreover, the introduction of Conditional MoEs still
holds the generalization ability of generalist models to conduct zero-shot
inference on new tasks, e.g., video-text retrieval and video caption. Code and
pre-trained generalist models shall be released.
- Abstract(参考訳): 生体情報システムのような人工ニューラルネットワークを構築するために、最近の研究は様々なタスクをジェネラリストモデルに統合し、共有パラメータで様々なタスクを処理し、タスク固有のモジュールを持たない。
ジェネラリストモデルは様々なベンチマークで有望な結果をもたらすが、タスク特化モデルと比較していくつかのタスクでパフォーマンスが低下する。
本研究では,異なるタスクとモダリティ間の干渉が,この現象の主な要因であることを見出した。
このような干渉を軽減するため、一般モデルに条件混合(Conditional Mixture-of-Experts)を導入する。
トレーニング/推論コストと一般化能力の両方を考慮するため、異なるレベルの条件下でのルーティング戦略を提案する。
提案する条件付きmoesを組み込むことにより,最近提案されたジェネラリストモデルのuni-perceiverは,タスク間の干渉を効果的に軽減し,下流データの1%を高速にチューニングすることで,下流タスクの最先端結果を実現する。
さらに、Conditional MoEsの導入は、ビデオテキスト検索やビデオキャプションといった新しいタスクでゼロショット推論を行うジェネラリストモデルの一般化能力を保っている。
コード及び事前訓練されたジェネリストモデルをリリースする。
関連論文リスト
- The Non-Local Model Merging Problem: Permutation Symmetries and Variance Collapse [25.002218722102505]
モデルマージは、特定のタスクでトレーニングされた複数のエキスパートモデルの重みを、単一のマルチタスクモデルに効率的に結合することを目的としている。
この研究は、"非ローカル"マージのより困難なシナリオを探求する。
標準的なマージ技術は、この非局所的な環境で効果的に一般化できないことが多い。
本稿では,タスク毎のマージモデルの出力アクティベーションを再スケール・シフトするマルチタスク手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T17:41:59Z) - Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
課題群規則化(Task Groupings Regularization)は、矛盾するタスクをグループ化し整合させることにより、モデルの不均一性から恩恵を受ける新しいアプローチである。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning [55.265138447400744]
ステートメントチューニングは、有限文の集合として識別タスクをモデル化し、エンコーダモデルを訓練し、潜在的なステートメントを識別してラベルを決定するテクニックである。
その結果, ステートメント・チューニングは, パラメータが著しく少ない最先端のLCMと比較して, 競争性能が向上することを示した。
この研究は、いくつかの設計選択が少ショットとゼロショットの一般化に与える影響を調査し、ステートメントチューニングが控えめなトレーニングデータで高いパフォーマンスを達成できることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T14:05:03Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Generalized Hidden Parameter MDPs Transferable Model-based RL in a
Handful of Trials [13.051708608864539]
一般化隠れMDP(英: Generalized Hidden MDPs、GHP-MDPs)は、タスクによって異なる隠れパラメータの関数として、力学と報酬の両方が変化するMDPのファミリーを指す。
我々は、報酬空間と動的潜伏空間を用いた新しい課題である MuJoCo タスクに対して、最先端性能とサンプル効率を実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T02:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。