論文の概要: ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities
- arxiv url: http://arxiv.org/abs/2305.11172v1
- Date: Thu, 18 May 2023 17:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 13:29:43.539531
- Title: ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities
- Title(参考訳): ONE-PEACE:無制限モダリティに向けた1つの汎用表現モデル
- Authors: Peng Wang, Shijie Wang, Junyang Lin, Shuai Bai, Xiaohuan Zhou, Jingren
Zhou, Xinggang Wang, Chang Zhou
- Abstract要約: ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
- 参考スコア(独自算出の注目度): 71.15303690248021
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we explore a scalable way for building a general representation
model toward unlimited modalities. We release ONE-PEACE, a highly extensible
model with 4B parameters that can seamlessly align and integrate
representations across vision, audio, and language modalities. The architecture
of ONE-PEACE comprises modality adapters, shared self-attention layers, and
modality FFNs. This design allows for the easy extension of new modalities by
adding adapters and FFNs, while also enabling multi-modal fusion through
self-attention layers. To pretrain ONE-PEACE, we develop two modality-agnostic
pretraining tasks, cross-modal aligning contrast and intra-modal denoising
contrast, which align the semantic space of different modalities and capture
fine-grained details within modalities concurrently. With the scaling-friendly
architecture and pretraining tasks, ONE-PEACE has the potential to expand to
unlimited modalities. Without using any vision or language pretrained model for
initialization, ONE-PEACE achieves leading results on a wide range of uni-modal
and multi-modal tasks, including image classification (ImageNet), semantic
segmentation (ADE20K), audio-text retrieval (AudioCaps, Clotho), audio
classification (ESC-50, FSD50K, VGGSound), audio question answering (AVQA),
image-text retrieval (MSCOCO, Flickr30K), and visual grounding (RefCOCO/+/g).
Code is available at https://github.com/OFA-Sys/ONE-PEACE.
- Abstract(参考訳): 本研究では,無限のモダリティに向けて汎用表現モデルを構築するためのスケーラブルな方法を探究する。
ONE-PEACEは、4Bパラメータを持つ高度に拡張可能なモデルで、視覚、音声、言語モダリティ間の表現をシームレスに調整し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
この設計により、アダプタやffnを追加することで、新しいモダリティを容易に拡張できると同時に、セルフアテンション層によるマルチモーダル融合を可能にする。
1ピースを事前学習するために,モダリティ非依存な2つの事前学習タスクであるクロスモーダルライニングコントラストとイントラモーダルデノージングコントラストを開発し,異なるモダリティの意味空間を調整し,モダリティ内の細かな詳細を同時に捉える。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
ONE-PEACEは、画像分類(ImageNet)、セマンティックセグメンテーション(ADE20K)、オーディオテキスト検索(AudioCaps, Clotho)、音声分類(ESC-50, FSD50K, VGGSound)、音声質問応答(AVQA)、画像テキスト検索(MSCOCO, Flickr30K)、ビジュアルグラウンド(RefCOCO/+/g)など、様々なユニモーダルタスクにおいて、視覚や言語で事前訓練されたモデルを使用しない。
コードはhttps://github.com/OFA-Sys/ONE-PEACEで入手できる。
関連論文リスト
- From Unimodal to Multimodal: Scaling up Projectors to Align Modalities [16.733970553781887]
そこで本研究では,事前学習した凍結アンモダルエンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。
本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。
これには、潜在空間における意味的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなプロジェクタのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。