論文の概要: Transformer-based Cross-Modal Recipe Embeddings with Large Batch
Training
- arxiv url: http://arxiv.org/abs/2205.04948v1
- Date: Tue, 10 May 2022 15:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:44:22.584354
- Title: Transformer-based Cross-Modal Recipe Embeddings with Large Batch
Training
- Title(参考訳): 大バッチトレーニングによるトランスフォーマー型クロスモーダルレシピ埋め込み
- Authors: Jing Yang, Junwen Chen, Keiji Yanai
- Abstract要約: 大規模バッチトレーニングのためのトランスフォーマーベースネットワーク(TNLBT)であるクロスモーダルレシピ検索フレームワークを提案する。
TNLBTはレシピの埋め込みから画像を生成しながら検索タスクを達成することを目的としている。
実験で提案したフレームワークは, クロスモーダルなレシピ検索と画像生成の両タスクにおいて, 最先端のフレームワークを著しく上回った。
- 参考スコア(独自算出の注目度): 22.109482796009278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present a cross-modal recipe retrieval framework,
Transformer-based Network for Large Batch Training (TNLBT), which is inspired
by ACME~(Adversarial Cross-Modal Embedding) and H-T~(Hierarchical Transformer).
TNLBT aims to accomplish retrieval tasks while generating images from recipe
embeddings. We apply the Hierarchical Transformer-based recipe text encoder,
the Vision Transformer~(ViT)-based recipe image encoder, and an adversarial
network architecture to enable better cross-modal embedding learning for recipe
texts and images. In addition, we use self-supervised learning to exploit the
rich information in the recipe texts having no corresponding images. Since
contrastive learning could benefit from a larger batch size according to the
recent literature on self-supervised learning, we adopt a large batch size
during training and have validated its effectiveness. In the experiments, the
proposed framework significantly outperformed the current state-of-the-art
frameworks in both cross-modal recipe retrieval and image generation tasks on
the benchmark Recipe1M. This is the first work which confirmed the
effectiveness of large batch training on cross-modal recipe embeddings.
- Abstract(参考訳): 本稿では,ACME~(Adversarial Cross-Modal Embedding)とH-T~(Hierarchical Transformer)にインスパイアされた,トランスフォーマーを用いた大規模バッチトレーニング用ネットワーク(TNLBT)のクロスモーダルレシピ検索フレームワークを提案する。
TNLBTはレシピの埋め込みから画像を生成しながら検索タスクを達成することを目的としている。
階層的トランスフォーマベースのレシピテキストエンコーダ,視覚トランスフォーマ~(vit)ベースのレシピイメージエンコーダ,および逆ネットワークアーキテクチャを適用し,レシピテキストと画像のクロスモーダル埋め込み学習を改善する。
さらに、自己教師付き学習を用いて、対応する画像を持たないレシピテキストのリッチな情報を活用する。
コントラスト学習は,近年の自己教師付き学習に関する文献に従えば,バッチサイズが大きくなるという利点があるため,学習中に大きなバッチサイズを採用し,その効果を検証した。
実験では,提案したフレームワークは,ベンチマークのRecipe1Mにおけるクロスモーダルなレシピ検索と画像生成タスクにおいて,最先端のフレームワークを著しく上回った。
クロスモーダルレシピ埋め込みにおける大規模バッチトレーニングの有効性を確認する最初の研究である。
関連論文リスト
- Vision Learners Meet Web Image-Text Pairs [24.194061585891692]
Webデータの優れたスケーラビリティを考えると、ノイズの多いWebソース画像とテキストのペアデータに対する自己教師付き事前学習を検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Towards a Unified Foundation Model: Jointly Pre-Training Transformers on
Unpaired Images and Text [93.11954811297652]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。
我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。
実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文 参考訳(メタデータ) (2021-12-14T00:20:55Z) - TransMEF: A Transformer-Based Multi-Exposure Image Fusion Framework
using Self-Supervised Multi-Task Learning [5.926203312586108]
変換器を用いたマルチ露光画像融合フレームワークであるTransMEFを提案する。
このフレームワークはエンコーダ-デコーダネットワークに基づいており、大きな自然言語データセットでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-02T07:43:42Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。