論文の概要: Fashion-Specific Attributes Interpretation via Dual Gaussian
Visual-Semantic Embedding
- arxiv url: http://arxiv.org/abs/2210.17417v1
- Date: Fri, 28 Oct 2022 03:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:05:49.845669
- Title: Fashion-Specific Attributes Interpretation via Dual Gaussian
Visual-Semantic Embedding
- Title(参考訳): dual gaussian visual-semantic embedded によるファッション特有の属性解釈
- Authors: Ryotaro Shimizu, Masanari Kimura, Masayuki Goto
- Abstract要約: 両ガウスの視覚-セマンティック埋め込みと呼ばれるエンドツーエンドモデルを提案する。
画像と属性を同じ射影空間にマッピングし、それらの用語の意味を広義の応用で解釈できるようにする。
- 参考スコア(独自算出の注目度): 2.019622939313173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several techniques to map various types of components, such as words,
attributes, and images, into the embedded space have been studied. Most of them
estimate the embedded representation of target entity as a point in the
projective space. Some models, such as Word2Gauss, assume a probability
distribution behind the embedded representation, which enables the spread or
variance of the meaning of embedded target components to be captured and
considered in more detail. We examine the method of estimating embedded
representations as probability distributions for the interpretation of
fashion-specific abstract and difficult-to-understand terms. Terms, such as
"casual," "adult-casual,'' "beauty-casual," and "formal," are extremely
subjective and abstract and are difficult for both experts and non-experts to
understand, which discourages users from trying new fashion. We propose an
end-to-end model called dual Gaussian visual-semantic embedding, which maps
images and attributes in the same projective space and enables the
interpretation of the meaning of these terms by its broad applications. We
demonstrate the effectiveness of the proposed method through multifaceted
experiments involving image and attribute mapping, image retrieval and
re-ordering techniques, and a detailed theoretical/analytical discussion of the
distance measure included in the loss function.
- Abstract(参考訳): 単語、属性、画像といった様々な種類のコンポーネントを埋め込み空間にマップする手法がいくつか研究されている。
その多くは射影空間の点として対象の実体の埋め込み表現を推定する。
Word2Gaussのようないくつかのモデルは、埋め込み表現の背後にある確率分布を仮定し、組み込まれたターゲットコンポーネントの意味の拡散や分散をより詳細に捉え、検討することができる。
ファッション特有の抽象的・理解しにくい用語の解釈のための確率分布として埋め込み表現を推定する方法を検討する。
カジュアル"、"adult-casual"、"adult-casual"、"beauty-casual"、"formal"といった用語は極めて主観的で抽象的であり、専門家と非専門家の両方にとって理解が困難であり、ユーザーが新しいファッションを試すのを妨げている。
本論文では,同一射影空間に画像と属性をマッピングし,その広い応用によってこれらの用語の意味の解釈を可能にする,dual gaussian visual-semantic embeddedと呼ばれるエンド・ツー・エンドモデルを提案する。
提案手法の有効性を,画像と属性マッピング,画像検索と並べ替え技術,および損失関数に含まれる距離測定の詳細な理論的・解析的議論を含む多面的実験により実証する。
関連論文リスト
- EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Parts of Speech-Grounded Subspaces in Vision-Language Models [32.497303059356334]
本稿では,CLIPの視覚-言語空間における異なる視覚的モダリティの表現を分離することを提案する。
音声の特定の部分に対応する変動を捉える部分空間を学習し、他の部分への変動を最小化する。
提案手法は,視覚的外観に対応するサブ空間の学習を容易にする。
論文 参考訳(メタデータ) (2023-05-23T13:32:19Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Hierarchical Semantic Segmentation using Psychometric Learning [17.417302703539367]
我々は,心理測定テストに基づいて,専門家からセグメンテーションアノテーションを収集する手法を開発した。
本手法は, 心理測定試験, アクティブクエリ選択, クエリ強化, ディープメトリック学習モデルから構成される。
本稿では, 合成画像, 空中画像, 組織像について評価し, 提案手法の有用性を示す。
論文 参考訳(メタデータ) (2021-07-07T13:38:33Z) - Probing Multimodal Embeddings for Linguistic Properties: the
Visual-Semantic Case [0.5735035463793008]
画像キャプションペアの埋め込みのためのプロービングタスクの形式化について議論する。
実験により,視聴覚埋め込みの精度は,対応するユニモーダル埋め込みと比較して最大12%向上することが判明した。
論文 参考訳(メタデータ) (2021-02-22T15:47:04Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。