論文の概要: ZeroVL: A Strong Baseline for Aligning Vision-Language Representations
with Limited Resources
- arxiv url: http://arxiv.org/abs/2112.09331v1
- Date: Fri, 17 Dec 2021 05:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 01:29:20.811421
- Title: ZeroVL: A Strong Baseline for Aligning Vision-Language Representations
with Limited Resources
- Title(参考訳): ZeroVL:限られたリソースで視覚言語表現を調整するための強力なベースライン
- Authors: Quan Cui, Boyan Zhou, Yu Guo, Weidong Yin, Hao Wu, Osamu Yoshie
- Abstract要約: 我々は、限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。
事前学習のために1億のWebデータを収集し、最先端の手法に匹敵する、あるいは優れた結果を得る。
私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。
- 参考スコア(独自算出の注目度): 13.30815073857842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pioneering dual-encoder pre-training works (e.g., CLIP and ALIGN) have
revealed the potential of aligning multi-modal representations with contrastive
learning. However, these works require a tremendous amount of data and
computational resources (e.g., billion-level web data and hundreds of GPUs),
which prevent researchers with limited resources from reproduction and further
exploration. To this end, we explore a stack of simple but effective
heuristics, and provide a comprehensive training guidance, which allows us to
conduct dual-encoder multi-modal representation alignment with limited
resources. We provide a reproducible strong baseline of competitive results,
namely ZeroVL, with only 14M publicly accessible academic datasets and 8 V100
GPUs. Additionally, we collect 100M web data for pre-training, and achieve
comparable or superior results than state-of-the-art methods, further proving
the effectiveness of our method on large-scale data. We hope that this work
will provide useful data points and experience for future research in
multi-modal pre-training. Our code and pre-trained models will be released to
facilitate the research community.
- Abstract(参考訳): ピアネリングデュアルエンコーダ事前学習作業(例えばCLIPやALIGN)は、マルチモーダル表現とコントラスト学習を整合させる可能性を明らかにしている。
しかし、これらの研究には膨大な量のデータと計算リソース(数十億のwebデータや数百のgpuなど)が必要であり、限られたリソースを持つ研究者が複製やさらなる探索を妨げている。
この目的のために,単純かつ効果的なヒューリスティックなスタックを探索し,限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。
我々は、公開アクセス可能な学術データセットと8v100 gpuしか持たない、競合結果の再現可能な強力なベースライン、すなわちzerovlを提供する。
さらに,事前学習のための1億の web データを収集し,最先端手法と同等あるいは優れた結果を得るとともに,大規模データに対する提案手法の有効性をさらに証明した。
今後のマルチモーダル事前学習研究に有用なデータポイントと体験を提供することを期待している。
私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。
関連論文リスト
- PRIMUS: Pretraining IMU Encoders with Multimodal Self-Supervision [7.896850422430362]
パーソナルデバイスに埋め込まれた慣性測定ユニット(IMU)は、健康と健康に大きな応用を可能にしている。
ラベル付きIMUデータは少ないが、ラベル付きまたは弱いラベル付きIMUデータを収集して人間の動きをモデル化することができる。
ビデオやテキストのモダリティに対して、"pretrain and adapt"アプローチでは、ラベル付きまたは弱いラベル付きデータを大量に使用して、事前トレーニングを行い、強力な特徴抽出器を構築し、その後、限定ラベル付きデータを使用して特定のタスクに適応する。
このアプローチはIMUドメインでは,(1)事前学習手法がIMUの文脈であまり理解されていないこと,の2つの理由から広く採用されていない。
論文 参考訳(メタデータ) (2024-11-22T18:46:30Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Efficient Multimodal Learning from Data-centric Perspective [21.35857180519653]
効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T10:09:10Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Lessons learned from the NeurIPS 2021 MetaDL challenge: Backbone
fine-tuning without episodic meta-learning dominates for few-shot learning
image classification [40.901760230639496]
本稿では,MetaDLコンペティションシリーズの設計,データセット,最良の実験結果,NeurIPS 2021チャレンジにおける最上位の手法について述べる。
トップ参加者のソリューションがオープンソース化された。
論文 参考訳(メタデータ) (2022-06-15T10:27:23Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。