論文の概要: Meta-Learning and Self-Supervised Pretraining for Real World Image
Translation
- arxiv url: http://arxiv.org/abs/2112.11929v1
- Date: Wed, 22 Dec 2021 14:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 15:12:52.939158
- Title: Meta-Learning and Self-Supervised Pretraining for Real World Image
Translation
- Title(参考訳): 実世界画像翻訳のためのメタラーニングと自己教師付き事前学習
- Authors: Ileana Rugina, Rumen Dangovski, Mark Veillette, Pooya Khorrami, Brian
Cheung, Olga Simek, Marin Solja\v{c}i\'c
- Abstract要約: 我々は,新しいマルチタスク・マルチショット画像生成ベンチマークを定式化するために,画像から画像への変換問題について検討する。
軽微な問題に対する基本点をいくつか提示し、異なるアプローチ間のトレードオフについて議論する。
- 参考スコア(独自算出の注目度): 5.469808405577674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning, in particular enabled by hardware advances
and big data, have provided impressive results across a wide range of
computational problems such as computer vision, natural language, or
reinforcement learning. Many of these improvements are however constrained to
problems with large-scale curated data-sets which require a lot of human labor
to gather. Additionally, these models tend to generalize poorly under both
slight distributional shifts and low-data regimes. In recent years, emerging
fields such as meta-learning or self-supervised learning have been closing the
gap between proof-of-concept results and real-life applications of machine
learning by extending deep-learning to the semi-supervised and few-shot
domains. We follow this line of work and explore spatio-temporal structure in a
recently introduced image-to-image translation problem in order to: i)
formulate a novel multi-task few-shot image generation benchmark and ii)
explore data augmentations in contrastive pre-training for image translation
downstream tasks. We present several baselines for the few-shot problem and
discuss trade-offs between different approaches. Our code is available at
https://github.com/irugina/meta-image-translation.
- Abstract(参考訳): ディープラーニングの最近の進歩、特にハードウェアの進歩とビッグデータによって実現され、コンピュータビジョンや自然言語、強化学習など、幅広い計算問題で印象的な結果が得られている。
しかし、これらの改善の多くは、大規模なキュレートされたデータセットの問題に制約されている。
さらに、これらのモデルは、わずかな分布シフトと低データレギュレーションの両方の下では、あまり一般化しない傾向にある。
近年,メタラーニングや自己教師型学習といった新興分野は,半教師付きドメインや少数ショットドメインにディープラーニングを拡張することによって,概念実証結果と機械学習の現実的な応用とのギャップを埋めている。
我々は,最近導入された画像から画像への翻訳問題において,この一連の研究を追従し,時空間構造を探究する。
一 新規なマルチタスク少ショット画像生成ベンチマークを定式化し、
二 画像翻訳ダウンストリームタスクのコントラスト事前学習におけるデータ拡張について検討すること。
我々は,この問題に対するベースラインをいくつか提示し,異なるアプローチ間のトレードオフについて論じる。
私たちのコードはhttps://github.com/irugina/meta-image-translationで利用可能です。
関連論文リスト
- A Survey of Vision-Language Pre-training from the Lens of Multimodal
Machine Translation [13.426403221815063]
本稿では,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況について調査する。
我々は、共通アーキテクチャ、事前学習目的、文献からのデータセットを要約し、マルチモーダル機械翻訳の進展に何が必要かを推測する。
論文 参考訳(メタデータ) (2023-06-12T15:56:10Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Efficient Vision-Language Pretraining with Visual Concepts and
Hierarchical Alignment [40.677139679304936]
a)新しい階層的相互アライメント損失、(b)マスク画像モデリングに基づく新たな自己教師型スキーム、(c)画像レベルのアノテーションを活用することにより、入力データを効率的に活用して学習を促進する新しいフレームワーク、ViCHAを提案する。
事前トレーニングは4倍少ないが、私たちのViCHA戦略は、Image-Text Retrieval、VQA、Visual Reasoning、Visual Entailment、Visual Groundingなど、いくつかの下流タスクにおいて、他のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-08-29T14:24:08Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Synthetic-to-Real Domain Adaptation using Contrastive Unpaired
Translation [28.19031441659854]
手動のアノテーションを使わずにトレーニングデータを取得するための多段階手法を提案する。
3Dオブジェクトメッシュから,現代的な合成パイプラインを用いて画像を生成する。
合成画像の実際の領域への適応に最先端のイメージ・ツー・イメージ変換法を用いる。
論文 参考訳(メタデータ) (2022-03-17T17:13:23Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。