Fugu-MT 論文翻訳(概要): ZeroVL: A Strong Baseline for Aligning Vision-Language Representations with Limited Resources

論文の概要: ZeroVL: A Strong Baseline for Aligning Vision-Language Representations with Limited Resources

arxiv url: http://arxiv.org/abs/2112.09331v1
Date: Fri, 17 Dec 2021 05:40:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-21 01:29:20.811421
Title: ZeroVL: A Strong Baseline for Aligning Vision-Language Representations with Limited Resources
Title（参考訳）: ZeroVL:限られたリソースで視覚言語表現を調整するための強力なベースライン
Authors: Quan Cui, Boyan Zhou, Yu Guo, Weidong Yin, Hao Wu, Osamu Yoshie
Abstract要約: 我々は、限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。事前学習のために1億のWebデータを収集し、最先端の手法に匹敵する、あるいは優れた結果を得る。私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。
参考スコア（独自算出の注目度）: 13.30815073857842
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pioneering dual-encoder pre-training works (e.g., CLIP and ALIGN) have revealed the potential of aligning multi-modal representations with contrastive learning. However, these works require a tremendous amount of data and computational resources (e.g., billion-level web data and hundreds of GPUs), which prevent researchers with limited resources from reproduction and further exploration. To this end, we explore a stack of simple but effective heuristics, and provide a comprehensive training guidance, which allows us to conduct dual-encoder multi-modal representation alignment with limited resources. We provide a reproducible strong baseline of competitive results, namely ZeroVL, with only 14M publicly accessible academic datasets and 8 V100 GPUs. Additionally, we collect 100M web data for pre-training, and achieve comparable or superior results than state-of-the-art methods, further proving the effectiveness of our method on large-scale data. We hope that this work will provide useful data points and experience for future research in multi-modal pre-training. Our code and pre-trained models will be released to facilitate the research community.
Abstract（参考訳）: ピアネリングデュアルエンコーダ事前学習作業(例えばCLIPやALIGN)は、マルチモーダル表現とコントラスト学習を整合させる可能性を明らかにしている。しかし、これらの研究には膨大な量のデータと計算リソース(数十億のwebデータや数百のgpuなど)が必要であり、限られたリソースを持つ研究者が複製やさらなる探索を妨げている。この目的のために,単純かつ効果的なヒューリスティックなスタックを探索し,限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。我々は、公開アクセス可能な学術データセットと8v100 gpuしか持たない、競合結果の再現可能な強力なベースライン、すなわちzerovlを提供する。さらに,事前学習のための1億の web データを収集し,最先端手法と同等あるいは優れた結果を得るとともに,大規模データに対する提案手法の有効性をさらに証明した。今後のマルチモーダル事前学習研究に有用なデータポイントと体験を提供することを期待している。私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。

関連論文リスト

A Theoretical Framework for Data Efficient Multi-Source Transfer Learning Based on Cramér-Rao Bound [16.49737340580437]
対象モデルを共同でトレーニングするために、各ソースタスクから必要なソースサンプルの最適な量は何か? 具体的には、クロスエントロピー損失と整合する一般化誤差尺度を導入し、Cram'er-Rao界に基づいて最小化して、各ソースタスクの最適な転送量を決定する。我々はアーキテクチャに依存しないデータ効率のアルゴリズムOTQMSを開発し、深層多元移動学習モデルの学習のための理論的結果を実装した。
論文参考訳（メタデータ） (2025-02-06T17:32:49Z)
PRIMUS: Pretraining IMU Encoders with Multimodal Self-Supervision [7.896850422430362]
パーソナルデバイスに埋め込まれた慣性測定ユニット(IMU)は、健康と健康に大きな応用を可能にしている。ラベル付きIMUデータは少ないが、ラベル付きまたは弱いラベル付きIMUデータを収集して人間の動きをモデル化することができる。ビデオやテキストのモダリティに対して、"pretrain and adapt"アプローチでは、ラベル付きまたは弱いラベル付きデータを大量に使用して、事前トレーニングを行い、強力な特徴抽出器を構築し、その後、限定ラベル付きデータを使用して特定のタスクに適応する。このアプローチはIMUドメインでは,(1)事前学習手法がIMUの文脈であまり理解されていないこと,の2つの理由から広く採用されていない。
論文参考訳（メタデータ） (2024-11-22T18:46:30Z)
Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。 Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文参考訳（メタデータ） (2024-11-11T07:36:19Z)
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文参考訳（メタデータ） (2024-10-23T17:58:45Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
Efficient Multimodal Learning from Data-centric Perspective [21.35857180519653]
効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
論文参考訳（メタデータ） (2024-02-18T10:09:10Z)
CTP: Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。 VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文参考訳（メタデータ） (2023-08-14T13:53:18Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Lessons learned from the NeurIPS 2021 MetaDL challenge: Backbone fine-tuning without episodic meta-learning dominates for few-shot learning image classification [40.901760230639496]
本稿では,MetaDLコンペティションシリーズの設計,データセット,最良の実験結果,NeurIPS 2021チャレンジにおける最上位の手法について述べる。トップ参加者のソリューションがオープンソース化された。
論文参考訳（メタデータ） (2022-06-15T10:27:23Z)
Multimodal Adaptive Distillation for Leveraging Unimodal Encoders for Vision-Language Tasks [118.49566068398642]
視覚言語(VL)タスクのためのクロスモーダルエンコーダは、しばしば注意深く計算された視覚言語データセットで事前訓練される。一様エンコーダは、コスト抑制の少ない単純なアノテーションで事前訓練され、数十億から数十億のスケールを達成する。我々は,事前学習したエンコーダから多モードVLエンコーダへの有用な知識を適応的に蒸留するマルチモーダル適応蒸留(MAD)を提案する。
論文参考訳（メタデータ） (2022-04-22T04:41:04Z)
Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。 Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文参考訳（メタデータ） (2022-02-14T14:37:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。