Fugu-MT 論文翻訳(概要): Context-Aware Multimodal Pretraining

論文の概要: Context-Aware Multimodal Pretraining

arxiv url: http://arxiv.org/abs/2411.15099v1
Date: Fri, 22 Nov 2024 17:55:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.244989
Title: Context-Aware Multimodal Pretraining
Title（参考訳）: 文脈を考慮したマルチモーダル事前学習
Authors: Karsten Roth, Zeynep Akata, Dima Damen, Ivana Balažević, Olivier J. Hénaff,
Abstract要約: 視覚言語モデルをトレーニングすることで,数ショット適応を著しく向上させることができることを示す。テストタイムのサンプル効率は最大で4倍改善され、平均的な数ショット適応率は5%以上向上した。
参考スコア（独自算出の注目度）: 72.04020920042574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale multimodal representation learning successfully optimizes for zero-shot transfer at test time. Yet the standard pretraining paradigm (contrastive learning on large amounts of image-text data) does not explicitly encourage representations to support few-shot adaptation. In this work, we propose a simple, but carefully designed extension to multimodal pretraining which enables representations to accommodate additional context. Using this objective, we show that vision-language models can be trained to exhibit significantly increased few-shot adaptation: across 21 downstream tasks, we find up to four-fold improvements in test-time sample efficiency, and average few-shot adaptation gains of over 5%, while retaining zero-shot generalization performance across model scales and training durations. In particular, equipped with simple, training-free, metric-based adaptation mechanisms, our representations easily surpass more complex and expensive optimization-based schemes, vastly simplifying generalization to new domains.
Abstract（参考訳）: 大規模マルチモーダル表現学習は、テスト時にゼロショット転送をうまく最適化する。しかし、標準的な事前訓練パラダイム(大量の画像テキストデータに対するコントラスト学習)は、明示的に表現を奨励せず、少数ショット適応をサポートする。本研究では,マルチモーダル事前学習の簡易かつ慎重に設計した拡張手法を提案する。この目的により、21の下流タスクにおいて、テストタイムのサンプル効率が最大4倍向上し、平均的な少数ショット適応率が5%以上向上し、モデルスケールとトレーニング期間にわたってゼロショット一般化性能を維持しながら、視覚言語モデルをトレーニングできることが示される。特に、単純でトレーニング不要なメトリックベースの適応機構を備えており、我々の表現はより複雑で高価な最適化ベースのスキームを克服し、新しい領域への一般化を大幅に単純化する。

関連論文リスト

Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキスト表現と視覚表現のアライメントを高めるために,パラメータ効率のよいマルチモーダルパティッシャ・テンポラル・アダプタ (MSTA) を提案する。我々は,ゼロショット転送,少数ショット学習,ベース・ツー・ノーベル一般化,完全テンポラル学習という4つの課題にまたがるアプローチの有効性を評価する。
論文参考訳（メタデータ） (2024-11-18T01:25:58Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文参考訳（メタデータ） (2023-06-07T18:26:22Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models [137.74524357614285]
グラディエント・レグルアテッドメタプロンプト学習フレームワークについて紹介する。パラメーターとデータ -- 効率的な方法で下流タスクにモデルを適応させるのに役立つ。 GRAMはモデルに依存しない方法で様々なプロンプトチューニング手法に容易に組み込むことができる。
論文参考訳（メタデータ） (2023-03-12T05:03:37Z)
Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文参考訳（メタデータ） (2022-09-19T12:15:31Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。