論文の概要: One Model, Multiple Modalities: A Sparsely Activated Approach for Text,
Sound, Image, Video and Code
- arxiv url: http://arxiv.org/abs/2205.06126v1
- Date: Thu, 12 May 2022 14:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 12:59:39.036316
- Title: One Model, Multiple Modalities: A Sparsely Activated Approach for Text,
Sound, Image, Video and Code
- Title(参考訳): 一つのモデル, 複数のモード: テキスト, 音, 画像, ビデオ, コードに対するわずかに活性化されたアプローチ
- Authors: Yong Dai, Duyu Tang, Liangxin Liu, Minghuan Tan, Cong Zhou, Jingquan
Wang, Zhangyin Feng, Fan Zhang, Xueyu Hu, Shuming Shi
- Abstract要約: 本稿では,単一モデルを用いた複数モーダル情報処理に優れた手法を提案する。
我々は,テキスト,画像,音声,ビデオ,コードを含む5つのモダリティのモデルを開発した。
我々のモデルは、同じ疎活性化された方法で自己教師付き事前訓練をサポートし、その結果、異なるモーダルのパラメータがより良くなる。
- 参考スコア(独自算出の注目度): 26.40920402395547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People perceive the world with multiple senses (e.g., through hearing sounds,
reading words and seeing objects). However, most existing AI systems only
process an individual modality. This paper presents an approach that excels at
handling multiple modalities of information with a single model. In our
"{SkillNet}" model, different parts of the parameters are specialized for
processing different modalities. Unlike traditional dense models that always
activate all the model parameters, our model sparsely activates parts of the
parameters whose skills are relevant to the task. Such model design enables
SkillNet to learn skills in a more interpretable way. We develop our model for
five modalities including text, image, sound, video and code. Results show
that, SkillNet performs comparably to five modality-specific fine-tuned models.
Moreover, our model supports self-supervised pretraining with the same sparsely
activated way, resulting in better initialized parameters for different
modalities. We find that pretraining significantly improves the performance of
SkillNet on five modalities, on par with or even better than baselines with
modality-specific pretraining. On the task of Chinese text-to-image retrieval,
our final system achieves higher accuracy than existing leading systems
including Wukong{ViT-B} and Wenlan 2.0 while using less number of activated
parameters.
- Abstract(参考訳): 人々は複数の感覚で世界を認識する(例えば、聴覚、単語の読み、物を見るなど)。
しかし、既存のAIシステムは個々のモダリティのみを処理する。
本稿では,単一モデルを用いた情報の多様性処理に優れた手法を提案する。
私たちの"{skillnet}"モデルでは、パラメータの異なる部分が、異なるモダリティを処理するために特別です。
すべてのモデルパラメータを常に活性化する従来の密集モデルとは異なり、我々のモデルはタスクに関連するスキルを持つパラメータの一部をわずかに活性化します。
このようなモデル設計により、skillnetはより解釈可能な方法でスキルを学ぶことができる。
我々は,テキスト,画像,音声,ビデオ,コードを含む5つのモードのモデルを開発した。
その結果、skillnetは5つのモダリティ特有の微調整モデルに比較可能な性能を示す。
さらに,本モデルは,同一のスパースに活性化された方法で自己教師付き事前学習をサポートし,異なるモードに対する初期化パラメータが向上する。
プレトレーニングにより,SkillNetの5つのモダリティにおける性能は,モダリティ特異的プレトレーニングのベースラインと同等かそれ以上に向上することがわかった。
中国におけるテキスト画像検索の課題では,Wukong{ViT-B} や Wenlan 2.0 などの既存システムに比べて,活性化パラメータの数が少なく,精度が向上する。
関連論文リスト
- Towards Multi-Modal Mastery: A 4.5B Parameter Truly Multi-Modal Small Language Model [0.0]
本稿では,複数入力と出力のモダリティを扱える新しい4.5Bパラメータ小言語モデルを提案する。
モデルのサイズは小さいが、様々なタスクにおける最先端のパフォーマンスをほぼ達成している。
論文 参考訳(メタデータ) (2024-11-08T17:15:17Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Skill-Based Few-Shot Selection for In-Context Learning [123.26522773708683]
Skill-KNNは、文脈内学習のためのスキルベースの少ショット選択手法である。
モデルはトレーニングや微調整を必要とせず、頻繁に銀行を拡大したり変更したりするのに適している。
5つのドメイン間セマンティックパーシングデータセットと6つのバックボーンモデルによる実験結果から、Skill-KNNは既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T16:28:29Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Multitask Learning for Low Resource Spoken Language Understanding [26.106133114838215]
我々は、自動音声認識と意図分類、感情分類を用いて、二重目的のモデルを訓練する。
我々のモデルは、控えめなサイズではあるが、意図の分類に基づいて訓練されたモデルよりも改善されている。
本研究では,低リソースシナリオにおけるモデルの性能を,クラス毎に1つの例でトレーニングすることで検討する。
論文 参考訳(メタデータ) (2022-11-24T16:38:17Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - One Model, Multiple Tasks: Pathways for Natural Language Understanding [34.58880663537492]
本稿では,複数のタスクを同時に処理するためのPathwaysアプローチを提案する。
個々のタスクに過度に特化し、新しいタスクに拡張された時にスクラッチから学習する一般的な単一目的モデルとは異なり、我々のアプローチは既存のスキルを縫い合わせ、新しいタスクをより効果的に学習する能力で汎用的である。
論文 参考訳(メタデータ) (2022-03-07T11:48:09Z) - Exploring Versatile Generative Language Model Via Parameter-Efficient
Transfer Learning [70.81910984985683]
本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する効果的な方法を提案する。
5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。
論文 参考訳(メタデータ) (2020-04-08T06:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。