論文の概要: Toward Building General Foundation Models for Language, Vision, and
Vision-Language Understanding Tasks
- arxiv url: http://arxiv.org/abs/2301.05065v1
- Date: Thu, 12 Jan 2023 15:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 13:43:18.184147
- Title: Toward Building General Foundation Models for Language, Vision, and
Vision-Language Understanding Tasks
- Title(参考訳): 言語・視覚・言語理解のための一般基礎モデルの構築に向けて
- Authors: Xinsong Zhang, Yan Zeng, Jipeng Zhang, Hang Li
- Abstract要約: 我々は新しい基礎モデル X-FM (X-Foundation Model) を提案する。
X-FMには1つの言語エンコーダ、1つの視覚エンコーダ、1つの融合エンコーダと新しい訓練方法がある。
X-FMは既存の基礎モデルを大幅に上回り、言語、視覚、視覚言語理解のための既存の基礎モデルに匹敵する性能を発揮する。
- 参考スコア(独自算出の注目度): 19.67458535239561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models or pre-trained models have substantially improved the
performance of various language, vision, and vision-language understanding
tasks. However, existing foundation models can only perform the best in one
type of tasks, namely language, vision, or vision-language. It is still an open
question whether it is possible to construct a foundation model performing the
best for all the understanding tasks, which we call a general foundation model.
In this paper, we propose a new general foundation model, X-FM (the
X-Foundation Model). X-FM has one language encoder, one vision encoder, and one
fusion encoder, as well as a new training method. The training method includes
two new techniques for learning X-FM from text, image, and image-text pair
data. One is to stop gradients from the vision-language training when learning
the language encoder. The other is to leverage the vision-language training to
guide the learning of the vision encoder. Extensive experiments on benchmark
datasets show that X-FM can significantly outperform existing general
foundation models and perform better than or comparable to existing foundation
models specifically for language, vision, or vision-language understanding.
- Abstract(参考訳): 基礎モデルや事前学習されたモデルは、様々な言語、視覚、視覚言語理解タスクの性能を大幅に改善した。
しかし、既存の基礎モデルは1つのタイプのタスク、すなわち言語、ビジョン、またはビジョン言語でしか実行できない。
一般基盤モデルと呼ぶすべての理解タスクに最適な基礎モデルを構築することが可能かどうかについては,まだ未解決の問題である。
本稿では,新しい基礎モデルであるX-FM(X-Foundation Model)を提案する。
X-FMには1つの言語エンコーダ、1つの視覚エンコーダ、1つの融合エンコーダと新しい訓練方法がある。
トレーニング方法は、テキスト、画像、画像とテキストのペアデータからX-FMを学習する2つの新しいテクニックを含む。
1つは、言語エンコーダを学習する際に視覚言語トレーニングから勾配を止めることである。
もうひとつは、視覚言語トレーニングを活用して、視覚エンコーダの学習を導くことだ。
ベンチマークデータセットの大規模な実験は、X-FMが既存の基礎モデルを大幅に上回り、言語、視覚、視覚言語理解に特化した既存の基礎モデルに匹敵する性能を発揮することを示している。
関連論文リスト
- Renaissance: Investigating the Pretraining of Vision-Language Encoders [0.6445605125467574]
メタ分析により,視覚言語エンコーダの事前学習に関するいくつかの疑問に答えようとしている。
最初の実験では、事前学習中に視覚言語モデルの大部分を凍結することにより、ダウンストリームのパフォーマンスを低下させることなく、大幅な計算を省くことができることを示した。
第2の実験では,VL変換器が視覚モデルとテキストモデルにどのような効果をもたらすかを検討した。
論文 参考訳(メタデータ) (2024-11-11T01:44:54Z) - Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - Is Multimodal Vision Supervision Beneficial to Language? [2.216702991322677]
ビジョン(イメージとビデオ)事前トレーニングは、マルチモーダルタスクで最先端の結果を得た最近の一般的なパラダイムである。
我々は,これらのモデルのスタンドアロンテキストエンコーダの言語表現性能と,視覚監督を通して学習したテキストエンコーダの言語表現性能を比較した。
論文 参考訳(メタデータ) (2023-02-10T02:22:44Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks [38.05496300873095]
ビジョン言語事前学習は、大量のデータからビジョンと言語間のアライメントを学習することを目的としている。
我々は、統合された事前学習フレームワークにより、多粒度視覚言語アライメントを学習することを提案する。
X$2$-VLMは、多様なテキスト記述に関連する無制限の視覚概念を学習することができる。
論文 参考訳(メタデータ) (2022-11-22T16:48:01Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。