論文の概要: Transformer-based Cross-Modal Recipe Embeddings with Large Batch
Training
- arxiv url: http://arxiv.org/abs/2205.04948v1
- Date: Tue, 10 May 2022 15:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:44:22.584354
- Title: Transformer-based Cross-Modal Recipe Embeddings with Large Batch
Training
- Title(参考訳): 大バッチトレーニングによるトランスフォーマー型クロスモーダルレシピ埋め込み
- Authors: Jing Yang, Junwen Chen, Keiji Yanai
- Abstract要約: 大規模バッチトレーニングのためのトランスフォーマーベースネットワーク(TNLBT)であるクロスモーダルレシピ検索フレームワークを提案する。
TNLBTはレシピの埋め込みから画像を生成しながら検索タスクを達成することを目的としている。
実験で提案したフレームワークは, クロスモーダルなレシピ検索と画像生成の両タスクにおいて, 最先端のフレームワークを著しく上回った。
- 参考スコア(独自算出の注目度): 22.109482796009278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present a cross-modal recipe retrieval framework,
Transformer-based Network for Large Batch Training (TNLBT), which is inspired
by ACME~(Adversarial Cross-Modal Embedding) and H-T~(Hierarchical Transformer).
TNLBT aims to accomplish retrieval tasks while generating images from recipe
embeddings. We apply the Hierarchical Transformer-based recipe text encoder,
the Vision Transformer~(ViT)-based recipe image encoder, and an adversarial
network architecture to enable better cross-modal embedding learning for recipe
texts and images. In addition, we use self-supervised learning to exploit the
rich information in the recipe texts having no corresponding images. Since
contrastive learning could benefit from a larger batch size according to the
recent literature on self-supervised learning, we adopt a large batch size
during training and have validated its effectiveness. In the experiments, the
proposed framework significantly outperformed the current state-of-the-art
frameworks in both cross-modal recipe retrieval and image generation tasks on
the benchmark Recipe1M. This is the first work which confirmed the
effectiveness of large batch training on cross-modal recipe embeddings.
- Abstract(参考訳): 本稿では,ACME~(Adversarial Cross-Modal Embedding)とH-T~(Hierarchical Transformer)にインスパイアされた,トランスフォーマーを用いた大規模バッチトレーニング用ネットワーク(TNLBT)のクロスモーダルレシピ検索フレームワークを提案する。
TNLBTはレシピの埋め込みから画像を生成しながら検索タスクを達成することを目的としている。
階層的トランスフォーマベースのレシピテキストエンコーダ,視覚トランスフォーマ~(vit)ベースのレシピイメージエンコーダ,および逆ネットワークアーキテクチャを適用し,レシピテキストと画像のクロスモーダル埋め込み学習を改善する。
さらに、自己教師付き学習を用いて、対応する画像を持たないレシピテキストのリッチな情報を活用する。
コントラスト学習は,近年の自己教師付き学習に関する文献に従えば,バッチサイズが大きくなるという利点があるため,学習中に大きなバッチサイズを採用し,その効果を検証した。
実験では,提案したフレームワークは,ベンチマークのRecipe1Mにおけるクロスモーダルなレシピ検索と画像生成タスクにおいて,最先端のフレームワークを著しく上回った。
クロスモーダルレシピ埋め込みにおける大規模バッチトレーニングの有効性を確認する最初の研究である。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Deep Image-to-Recipe Translation [0.0]
Deep Image-to-Recipe Translation(ディープ・イメージ・ツー・レシピ・トランスレーション)は、鮮やかな食品記憶と料理作りの技法のギャップを埋めることを目的としている。
我々の主な目的は、所定の食品画像から成分を予測することである。
我々のアプローチは、正確性だけで誤解を招く可能性のあるシナリオにおいて、IoU(Intersection over Union)やF1スコアのようなメトリクスの重要性を強調します。
論文 参考訳(メタデータ) (2024-07-01T02:33:07Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Towards a Unified Foundation Model: Jointly Pre-Training Transformers on
Unpaired Images and Text [93.11954811297652]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。
我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。
実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文 参考訳(メタデータ) (2021-12-14T00:20:55Z) - TransMEF: A Transformer-Based Multi-Exposure Image Fusion Framework
using Self-Supervised Multi-Task Learning [5.926203312586108]
変換器を用いたマルチ露光画像融合フレームワークであるTransMEFを提案する。
このフレームワークはエンコーダ-デコーダネットワークに基づいており、大きな自然言語データセットでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-02T07:43:42Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。