論文の概要: Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework
- arxiv url: http://arxiv.org/abs/2202.03052v1
- Date: Mon, 7 Feb 2022 10:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 01:19:37.065911
- Title: Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework
- Title(参考訳): 単純なシーケンスからシーケンスへの学習フレームワークによるアーキテクチャ、タスク、モダリティの統合
- Authors: Peng Wang, An Yang, Rui Men, Junyang Lin, Shuai Bai, Zhikang Li,
Jianxin Ma, Chang Zhou, Jingren Zhou, Hongxia Yang
- Abstract要約: モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
- 参考スコア(独自算出の注目度): 83.82026345508334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we pursue a unified paradigm for multimodal pretraining to
break the scaffolds of complex task/modality-specific customization. We propose
OFA, a unified multimodal pretrained model that unifies modalities (i.e.,
cross-modality, vision, language) and tasks (e.g., image generation, visual
grounding, image captioning, image classification, text generation, etc.) to a
simple sequence-to-sequence learning framework based on the encoder-decoder
architecture. OFA performs pretraining and finetuning with task instructions
and introduces no extra task-specific layers for finetuning. Experimental
results show that OFA achieves new state-of-the-arts on a series of multimodal
tasks, including image captioning (COCO test CIDEr: 149.6), text-to-image
generation (COCO test FID: 10.5), VQA (test-std acc.: 80.02), SNLI-VE (test
acc.: 90.20), and referring expression comprehension (RefCOCO / RefCOCO+ /
RefCOCOg test acc.: 92.93 / 90.10 / 85.20). Through extensive analyses, we
demonstrate that OFA reaches comparable performance with uni-modal pretrained
models (e.g., BERT, MAE, MoCo v3, SimCLR v2, etc.) in uni-modal tasks,
including NLU, NLG, and image classification, and it effectively transfers to
unseen tasks and domains. Code shall be released soon at
http://github.com/OFA-Sys/OFA
- Abstract(参考訳): 本研究では,マルチモーダルプリトレーニングのための統一パラダイムを追求し,複雑なタスク/モダリティ特有のカスタマイズの足場を壊す。
エンコーダ・デコーダアーキテクチャに基づく単純なシーケンス・ツー・シーケンス学習フレームワークに,モダリティ(クロスモダリティ,視覚,言語)とタスク(画像生成,画像キャプション,画像分類,テキスト生成など)を統合する,統合マルチモーダル事前学習モデルofaを提案する。
OFAはタスク命令で事前トレーニングと微調整を行い、微調整のための追加のタスク固有のレイヤを導入しない。
実験の結果、OFAは画像キャプション(COCO test CIDEr: 149.6)、テキスト・トゥ・イメージ生成(COCO test FID: 10.5)、VQA(test-std acc.: 80.02)、SNLI-VE(test-std acc.: 90.20)、参照式理解(RefCOCO / RefCOCO+ / RefCOCOg test acc.: 92.93 / 90.10 / 85.20)を含む一連のマルチモーダルタスクにおいて、新しい最先端技術を実現していることが示された。
広範に分析した結果,NLU,NLG,画像分類などのユニモーダルタスクにおいて,BERT,MAE,MoCo v3,SimCLR v2など,一様事前学習モデルと同等の性能を達成できた。
コードはもうすぐhttp://github.com/OFA-Sys/OFAでリリースされる。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning [23.846476546733406]
In-context Learningは、視覚とNLPのためのマルチタスクモデリングの新しい視点を提供する。
In-context skeleton sequence modeling のための効果的なフレームワークである Skeleton-in-Context を提案する。
我々のモデルは、最先端のマルチタスク性能を実現し、特定のタスクにおいてシングルタスクメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-12-06T18:59:44Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。