論文の概要: Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2208.10442v1
- Date: Mon, 22 Aug 2022 16:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:24:44.436822
- Title: Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks
- Title(参考訳): 外国語としてのイメージ:全視覚・視覚言語課題の準備
- Authors: Wenhui Wang, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang
Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, Furu
Wei
- Abstract要約: 汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
- 参考スコア(独自算出の注目度): 87.6494641931349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A big convergence of language, vision, and multimodal pretraining is
emerging. In this work, we introduce a general-purpose multimodal foundation
model BEiT-3, which achieves state-of-the-art transfer performance on both
vision and vision-language tasks. Specifically, we advance the big convergence
from three aspects: backbone architecture, pretraining task, and model scaling
up. We introduce Multiway Transformers for general-purpose modeling, where the
modular architecture enables both deep fusion and modality-specific encoding.
Based on the shared backbone, we perform masked "language" modeling on images
(Imglish), texts (English), and image-text pairs ("parallel sentences") in a
unified manner. Experimental results show that BEiT-3 obtains state-of-the-art
performance on object detection (COCO), semantic segmentation (ADE20K), image
classification (ImageNet), visual reasoning (NLVR2), visual question answering
(VQAv2), image captioning (COCO), and cross-modal retrieval (Flickr30K, COCO).
- Abstract(参考訳): 言語、ビジョン、マルチモーダル事前学習の大規模な収束が生まれている。
本研究では,視覚と視覚言語の両方で最先端の伝達性能を実現する汎用多目的基礎モデルBEiT-3を提案する。
具体的には、バックボーンアーキテクチャ、事前トレーニングタスク、モデルのスケールアップという3つの側面から大きな収束を進めます。
汎用モデリングのためのマルチウェイトランスフォーマーを導入し、モジュールアーキテクチャは深層融合とモダリティ固有符号化の両方を可能にする。
共有されたバックボーンに基づいて、画像(Imglish)、テキスト(英語)、画像-テキストペア(並列文)を統一的にマスクした「言語」モデリングを行う。
実験の結果,BEiT-3はオブジェクト検出(COCO),セマンティックセグメンテーション(ADE20K),画像分類(ImageNet),視覚的推論(NLVR2),視覚的質問応答(VQAv2),画像キャプション(COCO),クロスモーダル検索(Flickr30K,COCO)で最先端の性能が得られることがわかった。
関連論文リスト
- mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.40705814904898]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。
具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文 参考訳(メタデータ) (2024-08-09T03:25:42Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction
Tuning [115.50132185963139]
CM3Leonはデコーダのみのマルチモーダル言語モデルであり、テキストと画像の両方を生成および埋め込むことができる。
これは、テキストのみの言語モデルに適応したレシピで訓練された最初のマルチモーダルモデルである。
CM3Leonは、同等の手法よりも5倍少ないトレーニング計算で、テキストから画像生成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T21:27:27Z) - A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - All-in-One Image-Grounded Conversational Agents [31.28974522911758]
我々は、最先端のTransformerとResNeXtモジュールを結合したアーキテクチャを、新しい注意型マルチモーダルモジュールとして設計する。
モデルのコンポーネントを徹底的に分析し、あるタスク、あるタスク、またはすべてのタスクでトレーニングを行う際の性能を伝達する。
論文 参考訳(メタデータ) (2019-12-28T03:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。