論文の概要: FLAVA: A Foundational Language And Vision Alignment Model
- arxiv url: http://arxiv.org/abs/2112.04482v1
- Date: Wed, 8 Dec 2021 18:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 14:22:37.586530
- Title: FLAVA: A Foundational Language And Vision Alignment Model
- Title(参考訳): FLAVA: 基礎言語とビジョンアライメントモデル
- Authors: Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon,
Wojciech Galuba, Marcus Rohrbach, Douwe Kiela
- Abstract要約: 最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。
このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクにおいて、印象的なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 63.177841039302294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art vision and vision-and-language models rely on large-scale
visio-linguistic pretraining for obtaining good performance on a variety of
downstream tasks. Generally, such models are often either cross-modal
(contrastive) or multi-modal (with earlier fusion) but not both; and they often
only target specific modalities or tasks. A promising direction would be to use
a single holistic universal model, as a "foundation", that targets all
modalities at once -- a true vision and language foundation model should be
good at vision tasks, language tasks, and cross- and multi-modal vision and
language tasks. We introduce FLAVA as such a model and demonstrate impressive
performance on a wide range of 35 tasks spanning these target modalities.
- Abstract(参考訳): 最先端のビジョンとヴィジュアル・アンド・ランゲージモデルは、様々な下流タスクで優れたパフォーマンスを得るために、大規模な視覚言語事前訓練に依存している。
一般に、そのようなモデルは、しばしばクロスモーダル(contrastive)またはマルチモーダル(以前の融合を伴う)であるが、両方ではない。
真のビジョンと言語の基礎モデルは、ビジョンタスク、言語タスク、クロス・マルチモーダルなビジョンと言語タスクを得意とするべきである。
このようなモデルとしてFLAVAを導入し、これらの目標モダリティにまたがる35のタスクに対して印象的な性能を示す。
関連論文リスト
- Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks [92.03764152132315]
我々は、視覚基盤モデルを60億のパラメータにスケールアップする大規模視覚言語基盤モデル(InternVL)を設計する。
このモデルは、32の汎用視覚言語ベンチマークにおいて、最先端のパフォーマンスを広く適用し、達成することができる。
強力な視覚能力を備え、ViT-22Bの代替となる。
論文 参考訳(メタデータ) (2023-12-21T18:59:31Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Images in Language Space: Exploring the Suitability of Large Language
Models for Vision & Language Tasks [17.97052348690598]
大規模言語モデルは、ゼロショットまたは少数ショット学習パラダイムを使用して、様々な言語タスクで堅牢なパフォーマンスを示す。
入力としてイメージを付加的に処理できるマルチモーダルモデルは、言語のみのモデルでサイズと一般性に追いつかない。
異なる言語モデルを用いて言語モデルに視覚情報をアクセスできるようにする。
論文 参考訳(メタデータ) (2023-05-23T07:50:36Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。