論文の概要: OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models
- arxiv url: http://arxiv.org/abs/2212.04408v1
- Date: Thu, 8 Dec 2022 17:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:23:23.567136
- Title: OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models
- Title(参考訳): OFASys: 汎用モデル構築のためのマルチモーダルマルチタスク学習システム
- Authors: Jinze Bai, Rui Men, Hao Yang, Xuancheng Ren, Kai Dang, Yichang Zhang,
Xiaohuan Zhou, Peng Wang, Sinan Tan, An Yang, Zeyu Cui, Yu Han, Shuai Bai,
Wenbin Ge, Jianxin Ma, Junyang Lin, Jingren Zhou, Chang Zhou
- Abstract要約: ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
- 参考スコア(独自算出の注目度): 72.8156832931841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist models, which are capable of performing diverse multi-modal tasks
in a task-agnostic way within a single model, have been explored recently.
Being, hopefully, an alternative to approaching general-purpose AI, existing
generalist models are still at an early stage, where modality and task coverage
is limited. To empower multi-modal task-scaling and speed up this line of
research, we release a generalist model learning system, OFASys, built on top
of a declarative task interface named multi-modal instruction. At the core of
OFASys is the idea of decoupling multi-modal task representations from the
underlying model implementations. In OFASys, a task involving multiple
modalities can be defined declaratively even with just a single line of code.
The system automatically generates task plans from such instructions for
training and inference. It also facilitates multi-task training for diverse
multi-modal workloads. As a starting point, we provide presets of 7 different
modalities and 23 highly-diverse example tasks in OFASys, with which we also
develop a first-in-kind, single model, OFA+, that can handle text, image,
speech, video, and motion data. The single OFA+ model achieves 95% performance
in average with only 16% parameters of 15 task-finetuned models, showcasing the
performance reliability of multi-modal task-scaling provided by OFASys.
Available at https://github.com/OFA-Sys/OFASys
- Abstract(参考訳): 近年,単一モデル内でタスク非依存の方法で多様なマルチモーダルタスクを実行できるジェネラリストモデルが検討されている。
汎用aiへのアプローチに代わるものとして、既存のジェネラリストモデルはまだ初期段階にあり、モダリティとタスクカバレッジは限られている。
マルチモーダルタスクスケーリングの強化と,この研究ラインの高速化を目的として,マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
OFASysの中核は、基礎となるモデル実装からマルチモーダルなタスク表現を分離するという考え方です。
OFASysでは、1行のコードでも複数のモダリティを含むタスクを宣言的に定義することができる。
システムは、トレーニングと推論のために、そのような命令からタスクプランを自動的に生成する。
多様なマルチモーダルワークロードのためのマルチタスクトレーニングも容易だ。
出発点として,7つの異なるモダリティと23の高次元のサンプルタスクのプリセットを提供し,テキスト,画像,音声,ビデオ,モーションデータを処理可能な,初歩的な単一モデルofa+を開発した。
1つのOFA+モデルは、OFASysが提供するマルチモーダルタスクスケーリングの性能信頼性を示す15のタスク細分化モデルの16%のパラメータで、平均95%のパフォーマンスを達成する。
https://github.com/OFA-Sys/OFASysで入手できる。
関連論文リスト
- Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Unified-modal Salient Object Detection via Adaptive Prompt Learning [18.90181500147265]
単一モードSODタスクと多モードSODタスクの両方に対処するため,UniSODと呼ばれる統一フレームワークを提案する。
UniSODは適応的なプロンプト学習を通じてタスク固有のヒントでモーダルアウェアプロンプトを学習する。
提案手法は,RGB,RGB-D,RGB-T SODの14のベンチマークデータセットに対して,総合的な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-28T14:51:08Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。
単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。