論文の概要: Cycled Compositional Learning between Images and Text
- arxiv url: http://arxiv.org/abs/2107.11509v1
- Date: Sat, 24 Jul 2021 01:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-28 10:04:42.017939
- Title: Cycled Compositional Learning between Images and Text
- Title(参考訳): 画像とテキストの周期的構成学習
- Authors: Jongseok Kim, Youngjae Yu, Seunghwan Lee, GunheeKim
- Abstract要約: 本稿では,画像テキスト埋め込みの合成のセマンティックな距離を計測できるCycled composition Networkという手法を提案する。
まず、コンポジションネットワークは、相対字幕を用いて埋め込み空間内の対象画像への参照画像を転送する。
次に、補正ネットワークは、埋め込み空間における参照画像と検索対象画像との差を算出し、相対的なキャプションとマッチングする。
- 参考スコア(独自算出の注目度): 46.748458840791585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an approach named the Cycled Composition Network that can measure
the semantic distance of the composition of image-text embedding. First, the
Composition Network transit a reference image to target image in an embedding
space using relative caption. Second, the Correction Network calculates a
difference between reference and retrieved target images in the embedding space
and match it with a relative caption. Our goal is to learn a Composition
mapping with the Composition Network. Since this one-way mapping is highly
under-constrained, we couple it with an inverse relation learning with the
Correction Network and introduce a cycled relation for given Image We
participate in Fashion IQ 2020 challenge and have won the first place with the
ensemble of our model.
- Abstract(参考訳): 本稿では,画像テキスト埋め込みの構成の意味的距離を計測できるcycled composition networkという手法を提案する。
まず、コンポジションネットワークは、相対字幕を用いて埋め込み空間内の対象画像への参照画像を転送する。
次に、補正ネットワークは、埋め込み空間内の参照画像と検索対象画像との差を算出し、相対的なキャプションとマッチングする。
私たちの目標は、コンポジションネットワークでコンポジションマッピングを学ぶことです。
この一方向マッピングは高度に訓練不足であるため、補正ネットワークと逆関係学習を結合し、fashion iq 2020チャレンジに参加する与えられた画像に対してサイクル付き関係を導入し、モデルのアンサンブルで1位を獲得した。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Dual Relation Alignment for Composed Image Retrieval [24.812654620141778]
合成画像検索における2種類の関係性の存在を論じる。
明示的な関係は、参照画像と補完テキストターゲット画像に関連する。
本稿では,合成画像検索のための新たな枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-05T12:16:14Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Compositional Mixture Representations for Vision and Text [43.2292923754127]
視覚と言語の間の共通表現空間により、ディープネットワークは画像内のオブジェクトと対応する意味の意味を関連付けることができる。
本稿では,テキストの合成性を視覚領域に含ませる共有ガウス混合表現を,明示的な位置監督を伴わずに学習するモデルを提案する。
論文 参考訳(メタデータ) (2022-06-13T18:16:40Z) - Compositional Sketch Search [91.84489055347585]
フリーハンドスケッチを用いて画像コレクションを検索するアルゴリズムを提案する。
シーン構成全体を特定するための簡潔で直感的な表現として描画を利用する。
論文 参考訳(メタデータ) (2021-06-15T09:38:09Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - Cross-domain Correspondence Learning for Exemplar-based Image
Translation [59.35767271091425]
本稿では,異なる領域の入力からフォトリアリスティックな画像を合成する,例題に基づく画像翻訳のためのフレームワークを提案する。
出力は、例において意味的に対応するオブジェクトと整合したスタイル(例えば、色、テクスチャ)を持つ。
本手法は画像品質の面で最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-12T09:10:57Z) - CurlingNet: Compositional Learning between Images and Text for Fashion
IQ Data [52.714534304697395]
本稿では,画像テキスト埋め込みの合成のセマンティック距離を計測できるCurlingNetという手法を提案する。
ファッション領域のデータに対して効果的な画像テキスト合成を学習するために,本モデルでは2つの重要な要素を提案する。
ICCV 2019では、私たちのモデルのアンサンブルが最高のパフォーマンスの1つを達成する最初のファッション-IQチャレンジに参加します。
論文 参考訳(メタデータ) (2020-03-27T09:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。