論文の概要: Learning Text-Image Joint Embedding for Efficient Cross-Modal Retrieval
with Deep Feature Engineering
- arxiv url: http://arxiv.org/abs/2110.11592v1
- Date: Fri, 22 Oct 2021 05:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 15:28:59.622273
- Title: Learning Text-Image Joint Embedding for Efficient Cross-Modal Retrieval
with Deep Feature Engineering
- Title(参考訳): 深部特徴工学を用いた効率的なクロスモーダル検索のためのテキストイメージ共同埋め込み学習
- Authors: Zhongwei Xie, Ling Liu, Yanzhao Wu, Luo Zhong, Lin Li
- Abstract要約: 本稿では,セマンティクスの強化された関節埋め込みを効率的に学習するための2段階の深層機能工学フレームワークを提案する。
プリプロセッシングでは、生のテキストイメージ入力データから派生した意味的コンテキスト特徴と深い特徴工学を組み合わせることで、深い特徴工学を行う。
組込み学習において,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数を最適化することにより,深い特徴工学を行う。
- 参考スコア(独自算出の注目度): 13.321319187357844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a two-phase deep feature engineering framework for
efficient learning of semantics enhanced joint embedding, which clearly
separates the deep feature engineering in data preprocessing from training the
text-image joint embedding model. We use the Recipe1M dataset for the technical
description and empirical validation. In preprocessing, we perform deep feature
engineering by combining deep feature engineering with semantic context
features derived from raw text-image input data. We leverage LSTM to identify
key terms, deep NLP models from the BERT family, TextRank, or TF-IDF to produce
ranking scores for key terms before generating the vector representation for
each key term by using word2vec. We leverage wideResNet50 and word2vec to
extract and encode the image category semantics of food images to help semantic
alignment of the learned recipe and image embeddings in the joint latent space.
In joint embedding learning, we perform deep feature engineering by optimizing
the batch-hard triplet loss function with soft-margin and double negative
sampling, taking into account also the category-based alignment loss and
discriminator-based alignment loss. Extensive experiments demonstrate that our
SEJE approach with deep feature engineering significantly outperforms the
state-of-the-art approaches.
- Abstract(参考訳): 本稿では,テキスト・画像統合組込みモデルの学習からデータ前処理における深い特徴工学を明確に分離した,意味論の効率的な学習のための2相深層特徴工学フレームワークを提案する。
技術的記述と実証検証にはRecipe1Mデータセットを使用します。
プリプロセッシングでは、生のテキストイメージ入力データから派生した意味的コンテキスト特徴と深い特徴工学を組み合わせることで、深い特徴工学を行う。
我々はLSTMを利用してキー用語、BERTファミリー、TextRank、TF-IDFのディープNLPモデルを特定し、ワード2vecを用いて各キー用語のベクトル表現を生成する前にキー用語のランキングスコアを生成する。
我々は、より広いesnet50とword2vecを利用して、食品画像のイメージカテゴリセマンティクスを抽出・エンコードし、学習したレシピと画像埋め込みの結合潜在空間における意味的アラインメントを支援する。
組込み学習では,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数を最適化し,カテゴリベースアライメント損失と判別器ベースアライメント損失も考慮して,深い特徴工学を行う。
広範囲な実験により、深い特徴工学によるSEJEアプローチは、最先端のアプローチよりも大幅に優れています。
関連論文リスト
- IPSeg: Image Posterior Mitigates Semantic Drift in Class-Incremental Segmentation [77.06177202334398]
CISSにおけるセマンティックドリフトとデグレード性能に寄与する2つの重要な課題を特定した。
まず、モデルの異なる部分が異なる漸進的な段階に最適化されるという、別々の最適化の問題を強調します。
第二に、不適切な擬似ラベルから生じる雑音のセマンティクスを同定し、その結果、準最適結果が得られる。
論文 参考訳(メタデータ) (2025-02-07T12:19:37Z) - SwinMTL: A Shared Architecture for Simultaneous Depth Estimation and Semantic Segmentation from Monocular Camera Images [4.269350826756809]
本研究では,一台のカメラを用いた同時深度推定とセマンティックセマンティックセグメンテーションが可能な,革新的なマルチタスク学習フレームワークを提案する。
提案手法は共有エンコーダデコーダアーキテクチャに基づいており,計算効率を損なうことなく,深度推定とセマンティックセグメンテーションタスクの精度を向上させるために様々な手法を統合する。
このフレームワークは、屋外のCityscapesデータセットと屋内のNYU Depth V2データセットという2つのデータセットで徹底的に評価されている。
論文 参考訳(メタデータ) (2024-03-15T20:04:27Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - Transformer-Based Approach for Joint Handwriting and Named Entity
Recognition in Historical documents [1.7491858164568674]
本研究は,手書き文書における名前付きエンティティ認識にトランスフォーマネットワークを採用した最初のアプローチを示す。
我々は,Esposalles データベースを用いた ICDAR 2017 Information extract コンペティションにおいて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-12-08T09:26:21Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - Efficient Deep Feature Calibration for Cross-Modal Joint Embedding
Learning [14.070841236184439]
本稿では,テキスト画像のクロスモーダルな関節埋め込みを効果的に学習するための2相深い特徴キャリブレーションフレームワークを提案する。
プリプロセッシングでは、生のテキストイメージ入力データから派生したセマンティックコンテキスト特徴と、深い特徴工学を組み合わせることで、深い特徴キャリブレーションを行う。
組込み学習において,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数の最適化により,深い特徴校正を行う。
論文 参考訳(メタデータ) (2021-08-02T08:16:58Z) - A Robust Deep Ensemble Classifier for Figurative Language Detection [1.3124513975412255]
自然言語処理(NLP)の幅広い分野における感性分析のオープンな問題である言語認識(FL)
本論文では,高度なDeep Learning (DL) 技術に対処する,皮肉,皮肉,メタファの3つの相互関連FL認識タスクについて述べる。
Deep Soft Ensemble (DESC) モデルは、FL認識の挑戦的な分野において、関連する方法論や最先端技術と比較すると、非常に優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-09T11:26:37Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。