論文の概要: Transformer-based Cross-Modal Recipe Embeddings with Large Batch
Training
- arxiv url: http://arxiv.org/abs/2205.04948v1
- Date: Tue, 10 May 2022 15:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:44:22.584354
- Title: Transformer-based Cross-Modal Recipe Embeddings with Large Batch
Training
- Title(参考訳): 大バッチトレーニングによるトランスフォーマー型クロスモーダルレシピ埋め込み
- Authors: Jing Yang, Junwen Chen, Keiji Yanai
- Abstract要約: 大規模バッチトレーニングのためのトランスフォーマーベースネットワーク(TNLBT)であるクロスモーダルレシピ検索フレームワークを提案する。
TNLBTはレシピの埋め込みから画像を生成しながら検索タスクを達成することを目的としている。
実験で提案したフレームワークは, クロスモーダルなレシピ検索と画像生成の両タスクにおいて, 最先端のフレームワークを著しく上回った。
- 参考スコア(独自算出の注目度): 22.109482796009278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present a cross-modal recipe retrieval framework,
Transformer-based Network for Large Batch Training (TNLBT), which is inspired
by ACME~(Adversarial Cross-Modal Embedding) and H-T~(Hierarchical Transformer).
TNLBT aims to accomplish retrieval tasks while generating images from recipe
embeddings. We apply the Hierarchical Transformer-based recipe text encoder,
the Vision Transformer~(ViT)-based recipe image encoder, and an adversarial
network architecture to enable better cross-modal embedding learning for recipe
texts and images. In addition, we use self-supervised learning to exploit the
rich information in the recipe texts having no corresponding images. Since
contrastive learning could benefit from a larger batch size according to the
recent literature on self-supervised learning, we adopt a large batch size
during training and have validated its effectiveness. In the experiments, the
proposed framework significantly outperformed the current state-of-the-art
frameworks in both cross-modal recipe retrieval and image generation tasks on
the benchmark Recipe1M. This is the first work which confirmed the
effectiveness of large batch training on cross-modal recipe embeddings.
- Abstract(参考訳): 本稿では,ACME~(Adversarial Cross-Modal Embedding)とH-T~(Hierarchical Transformer)にインスパイアされた,トランスフォーマーを用いた大規模バッチトレーニング用ネットワーク(TNLBT)のクロスモーダルレシピ検索フレームワークを提案する。
TNLBTはレシピの埋め込みから画像を生成しながら検索タスクを達成することを目的としている。
階層的トランスフォーマベースのレシピテキストエンコーダ,視覚トランスフォーマ~(vit)ベースのレシピイメージエンコーダ,および逆ネットワークアーキテクチャを適用し,レシピテキストと画像のクロスモーダル埋め込み学習を改善する。
さらに、自己教師付き学習を用いて、対応する画像を持たないレシピテキストのリッチな情報を活用する。
コントラスト学習は,近年の自己教師付き学習に関する文献に従えば,バッチサイズが大きくなるという利点があるため,学習中に大きなバッチサイズを採用し,その効果を検証した。
実験では,提案したフレームワークは,ベンチマークのRecipe1Mにおけるクロスモーダルなレシピ検索と画像生成タスクにおいて,最先端のフレームワークを著しく上回った。
クロスモーダルレシピ埋め込みにおける大規模バッチトレーニングの有効性を確認する最初の研究である。
関連論文リスト
- COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Towards a Unified Foundation Model: Jointly Pre-Training Transformers on
Unpaired Images and Text [93.11954811297652]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。
我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。
実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文 参考訳(メタデータ) (2021-12-14T00:20:55Z) - TransMEF: A Transformer-Based Multi-Exposure Image Fusion Framework
using Self-Supervised Multi-Task Learning [5.926203312586108]
変換器を用いたマルチ露光画像融合フレームワークであるTransMEFを提案する。
このフレームワークはエンコーダ-デコーダネットワークに基づいており、大きな自然言語データセットでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-02T07:43:42Z) - Unifying Multimodal Transformer for Bi-directional Image and Text
Generation [8.547205551848462]
本研究では,自然な双方向タスクである画像・テキスト・テキスト・画像世代の共同学習について検討する。
双方向タスクを共同で研究するために,単一のマルチモーダルモデルに基づく統合画像・テキスト生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-19T06:01:24Z) - Learning Structural Representations for Recipe Generation and Food
Retrieval [101.97397967958722]
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-04T06:36:31Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。