論文の概要: Efficient Deep Feature Calibration for Cross-Modal Joint Embedding
Learning
- arxiv url: http://arxiv.org/abs/2108.00705v1
- Date: Mon, 2 Aug 2021 08:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:06:00.670200
- Title: Efficient Deep Feature Calibration for Cross-Modal Joint Embedding
Learning
- Title(参考訳): クロスモーダル・ジョイント・エンベディング学習におけるDeep Feature Calibration
- Authors: Zhongwei Xie, Ling Liu, Lin Li, Luo Zhong
- Abstract要約: 本稿では,テキスト画像のクロスモーダルな関節埋め込みを効果的に学習するための2相深い特徴キャリブレーションフレームワークを提案する。
プリプロセッシングでは、生のテキストイメージ入力データから派生したセマンティックコンテキスト特徴と、深い特徴工学を組み合わせることで、深い特徴キャリブレーションを行う。
組込み学習において,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数の最適化により,深い特徴校正を行う。
- 参考スコア(独自算出の注目度): 14.070841236184439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a two-phase deep feature calibration framework for
efficient learning of semantics enhanced text-image cross-modal joint
embedding, which clearly separates the deep feature calibration in data
preprocessing from training the joint embedding model. We use the Recipe1M
dataset for the technical description and empirical validation. In
preprocessing, we perform deep feature calibration by combining deep feature
engineering with semantic context features derived from raw text-image input
data. We leverage LSTM to identify key terms, NLP methods to produce ranking
scores for key terms before generating the key term feature. We leverage
wideResNet50 to extract and encode the image category semantics to help
semantic alignment of the learned recipe and image embeddings in the joint
latent space. In joint embedding learning, we perform deep feature calibration
by optimizing the batch-hard triplet loss function with soft-margin and double
negative sampling, also utilizing the category-based alignment loss and
discriminator-based alignment loss. Extensive experiments demonstrate that our
SEJE approach with the deep feature calibration significantly outperforms the
state-of-the-art approaches.
- Abstract(参考訳): 本稿では,データ前処理における深い特徴キャリブレーションを,関節埋め込みモデルのトレーニングから明確に分離する,セマンティクスを効率的に学習するための2段階の深層特徴キャリブレーションフレームワークを提案する。
技術的記述と実証検証にはRecipe1Mデータセットを使用します。
先行処理では,テキスト画像入力データから得られた意味的文脈特徴と深層特徴工学を組み合わせることで,深い特徴量校正を行う。
我々はLSTMを利用してキー項を識別し、キー項の特徴を生成する前にキー項のランキングスコアを生成する。
We leverage wideResNet50 to extract and encode the image category semantics to help semantic connection of the learned recipe and image embeddeds in the joint latent space。
組込み学習では,ソフトマージンと二重負サンプリングでバッチハード三重項損失関数を最適化し,カテゴリベースアライメント損失と判別器ベースアライメント損失を利用して,深い特徴校正を行う。
広汎な実験により, 深い特徴キャリブレーションによるSEJEのアプローチは, 最先端のアプローチよりも優れていることが示された。
関連論文リスト
- Fully Differentiable Correlation-driven 2D/3D Registration for X-ray to CT Image Fusion [3.868072865207522]
画像ベース剛性2D/3Dレジストレーションは, 蛍光ガイド下外科手術において重要な技術である。
デュアルブランチCNN変換器エンコーダを用いた完全微分型相関型ネットワークを提案する。
組込み情報に基づく低周波特徴と高周波特徴の分解に対して相関型損失を提案する。
論文 参考訳(メタデータ) (2024-02-04T14:12:51Z) - Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - Fundamental Limits of Two-layer Autoencoders, and Achieving Them with
Gradient Methods [91.54785981649228]
本稿では,非線形二層型オートエンコーダについて述べる。
本結果は,人口リスクの最小化要因を特徴付け,その最小化要因が勾配法によって達成されることを示す。
符号アクティベーション関数の特別な場合において、この解析は、シャローオートエンコーダによるガウス音源の損失圧縮の基本的な限界を確立する。
論文 参考訳(メタデータ) (2022-12-27T12:37:34Z) - IDEAL: Improved DEnse locAL Contrastive Learning for Semi-Supervised
Medical Image Segmentation [3.6748639131154315]
我々は,メートル法学習の概念をセグメンテーションタスクに拡張する。
本稿では,高密度画素レベルの特徴量を得るための単純な畳み込みプロジェクションヘッドを提案する。
下流タスクに対して,2ストリーム正規化トレーニングを含む双方向正規化機構を考案した。
論文 参考訳(メタデータ) (2022-10-26T23:11:02Z) - Dense FixMatch: a simple semi-supervised learning method for pixel-wise
prediction tasks [68.36996813591425]
Dense FixMatchは,高密度かつ構造化された予測タスクのオンライン半教師付き学習のための簡易な手法である。
我々は、擬似ラベルにマッチング操作を追加することにより、画像分類を超えた半教師付き学習問題にFixMatchの適用を可能にする。
Dense FixMatchは、ラベル付きデータのみを使用して教師付き学習と比較すると、結果を著しく改善し、ラベル付きサンプルの1/4でそのパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2022-10-18T15:02:51Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Learning Text-Image Joint Embedding for Efficient Cross-Modal Retrieval
with Deep Feature Engineering [13.321319187357844]
本稿では,セマンティクスの強化された関節埋め込みを効率的に学習するための2段階の深層機能工学フレームワークを提案する。
プリプロセッシングでは、生のテキストイメージ入力データから派生した意味的コンテキスト特徴と深い特徴工学を組み合わせることで、深い特徴工学を行う。
組込み学習において,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数を最適化することにより,深い特徴工学を行う。
論文 参考訳(メタデータ) (2021-10-22T05:18:28Z) - Transductive Few-Shot Classification on the Oblique Manifold [5.115651633703363]
限られたデータで学習しようとする学習は少ない。
本研究では,ユークリッド空間における特徴抽出を行う。
また,空間ピラミッドプールを用いた非パラメトリック領域自己アテンションを提案する。
論文 参考訳(メタデータ) (2021-08-09T13:01:03Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Adaptive Fractional Dilated Convolution Network for Image Aesthetics
Assessment [33.945579916184364]
適応型分数拡張畳み込み(AFDC)は、畳み込みカーネルレベルでこの問題に取り組むために開発された。
ミニバッチ学習のための簡潔な定式化を行い,グループ化戦略を用いて計算オーバーヘッドを削減する。
提案手法は,AVAデータセットを用いた画像美学評価において,最先端の性能を実現することを実証した。
論文 参考訳(メタデータ) (2020-04-06T21:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。