論文の概要: ZeroVL: A Strong Baseline for Aligning Vision-Language Representations
with Limited Resources
- arxiv url: http://arxiv.org/abs/2112.09331v1
- Date: Fri, 17 Dec 2021 05:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 01:29:20.811421
- Title: ZeroVL: A Strong Baseline for Aligning Vision-Language Representations
with Limited Resources
- Title(参考訳): ZeroVL:限られたリソースで視覚言語表現を調整するための強力なベースライン
- Authors: Quan Cui, Boyan Zhou, Yu Guo, Weidong Yin, Hao Wu, Osamu Yoshie
- Abstract要約: 我々は、限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。
事前学習のために1億のWebデータを収集し、最先端の手法に匹敵する、あるいは優れた結果を得る。
私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。
- 参考スコア(独自算出の注目度): 13.30815073857842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pioneering dual-encoder pre-training works (e.g., CLIP and ALIGN) have
revealed the potential of aligning multi-modal representations with contrastive
learning. However, these works require a tremendous amount of data and
computational resources (e.g., billion-level web data and hundreds of GPUs),
which prevent researchers with limited resources from reproduction and further
exploration. To this end, we explore a stack of simple but effective
heuristics, and provide a comprehensive training guidance, which allows us to
conduct dual-encoder multi-modal representation alignment with limited
resources. We provide a reproducible strong baseline of competitive results,
namely ZeroVL, with only 14M publicly accessible academic datasets and 8 V100
GPUs. Additionally, we collect 100M web data for pre-training, and achieve
comparable or superior results than state-of-the-art methods, further proving
the effectiveness of our method on large-scale data. We hope that this work
will provide useful data points and experience for future research in
multi-modal pre-training. Our code and pre-trained models will be released to
facilitate the research community.
- Abstract(参考訳): ピアネリングデュアルエンコーダ事前学習作業(例えばCLIPやALIGN)は、マルチモーダル表現とコントラスト学習を整合させる可能性を明らかにしている。
しかし、これらの研究には膨大な量のデータと計算リソース(数十億のwebデータや数百のgpuなど)が必要であり、限られたリソースを持つ研究者が複製やさらなる探索を妨げている。
この目的のために,単純かつ効果的なヒューリスティックなスタックを探索し,限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。
我々は、公開アクセス可能な学術データセットと8v100 gpuしか持たない、競合結果の再現可能な強力なベースライン、すなわちzerovlを提供する。
さらに,事前学習のための1億の web データを収集し,最先端手法と同等あるいは優れた結果を得るとともに,大規模データに対する提案手法の有効性をさらに証明した。
今後のマルチモーダル事前学習研究に有用なデータポイントと体験を提供することを期待している。
私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。
関連論文リスト
- CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Lessons learned from the NeurIPS 2021 MetaDL challenge: Backbone
fine-tuning without episodic meta-learning dominates for few-shot learning
image classification [40.901760230639496]
本稿では,MetaDLコンペティションシリーズの設計,データセット,最良の実験結果,NeurIPS 2021チャレンジにおける最上位の手法について述べる。
トップ参加者のソリューションがオープンソース化された。
論文 参考訳(メタデータ) (2022-06-15T10:27:23Z) - Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for
Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。
一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。
我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文 参考訳(メタデータ) (2022-04-22T04:41:04Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Motivating Learners in Multi-Orchestrator Mobile Edge Learning: A
Stackelberg Game Approach [54.28419430315478]
Mobile Edge Learningは、異種エッジデバイス上で機械学習モデルの分散トレーニングを可能にする。
MELでは、十分なトレーニングデータやコンピューティングリソースを入手することなく、トレーニング性能が低下する。
そこで我々は2ラウンドのStackelbergゲームとしてオーケストレータとラーナーの相互作用を定式化するインセンティブ機構を提案する。
論文 参考訳(メタデータ) (2021-09-25T17:27:48Z) - Multimodal Prototypical Networks for Few-shot Learning [20.100480009813953]
クロスモーダルな機能生成フレームワークは、数ショットのシナリオにおいて、人口密度の低い埋め込みスペースを強化するために使用される。
このような場合、近隣の分類は実現可能なアプローチであり、最先端のシングルモーダルおよびマルチモーダルの複数ショット学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-17T19:32:59Z) - Building One-Shot Semi-supervised (BOSS) Learning up to Fully Supervised
Performance [0.0]
本研究では,Cifar-10とSVHNを用いた一発半教師付き学習(BOSS)の可能性を示す。
本手法は, クラスプロトタイプの精錬, クラスバランシング, 自己学習を組み合わせた手法である。
厳密な経験的評価は、ディープニューラルネットワークのトレーニングには大規模なデータセットのラベル付けは必要ないという証拠を提供する。
論文 参考訳(メタデータ) (2020-06-16T17:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。