論文の概要: Fashion-Specific Attributes Interpretation via Dual Gaussian
Visual-Semantic Embedding
- arxiv url: http://arxiv.org/abs/2210.17417v1
- Date: Fri, 28 Oct 2022 03:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 16:05:49.845669
- Title: Fashion-Specific Attributes Interpretation via Dual Gaussian
Visual-Semantic Embedding
- Title(参考訳): dual gaussian visual-semantic embedded によるファッション特有の属性解釈
- Authors: Ryotaro Shimizu, Masanari Kimura, Masayuki Goto
- Abstract要約: 両ガウスの視覚-セマンティック埋め込みと呼ばれるエンドツーエンドモデルを提案する。
画像と属性を同じ射影空間にマッピングし、それらの用語の意味を広義の応用で解釈できるようにする。
- 参考スコア(独自算出の注目度): 2.019622939313173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several techniques to map various types of components, such as words,
attributes, and images, into the embedded space have been studied. Most of them
estimate the embedded representation of target entity as a point in the
projective space. Some models, such as Word2Gauss, assume a probability
distribution behind the embedded representation, which enables the spread or
variance of the meaning of embedded target components to be captured and
considered in more detail. We examine the method of estimating embedded
representations as probability distributions for the interpretation of
fashion-specific abstract and difficult-to-understand terms. Terms, such as
"casual," "adult-casual,'' "beauty-casual," and "formal," are extremely
subjective and abstract and are difficult for both experts and non-experts to
understand, which discourages users from trying new fashion. We propose an
end-to-end model called dual Gaussian visual-semantic embedding, which maps
images and attributes in the same projective space and enables the
interpretation of the meaning of these terms by its broad applications. We
demonstrate the effectiveness of the proposed method through multifaceted
experiments involving image and attribute mapping, image retrieval and
re-ordering techniques, and a detailed theoretical/analytical discussion of the
distance measure included in the loss function.
- Abstract(参考訳): 単語、属性、画像といった様々な種類のコンポーネントを埋め込み空間にマップする手法がいくつか研究されている。
その多くは射影空間の点として対象の実体の埋め込み表現を推定する。
Word2Gaussのようないくつかのモデルは、埋め込み表現の背後にある確率分布を仮定し、組み込まれたターゲットコンポーネントの意味の拡散や分散をより詳細に捉え、検討することができる。
ファッション特有の抽象的・理解しにくい用語の解釈のための確率分布として埋め込み表現を推定する方法を検討する。
カジュアル"、"adult-casual"、"adult-casual"、"beauty-casual"、"formal"といった用語は極めて主観的で抽象的であり、専門家と非専門家の両方にとって理解が困難であり、ユーザーが新しいファッションを試すのを妨げている。
本論文では,同一射影空間に画像と属性をマッピングし,その広い応用によってこれらの用語の意味の解釈を可能にする,dual gaussian visual-semantic embeddedと呼ばれるエンド・ツー・エンドモデルを提案する。
提案手法の有効性を,画像と属性マッピング,画像検索と並べ替え技術,および損失関数に含まれる距離測定の詳細な理論的・解析的議論を含む多面的実験により実証する。
関連論文リスト
- Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - HYDEN: Hyperbolic Density Representations for Medical Images and Reports [23.771144148149432]
ハイパーボリック密度埋め込みに基づく画像テキスト表現学習アプローチは、特定の医学領域のデータに適合する。
カプセル化損失関数を用いて画像-テキスト密度分布間の部分順序関係をモデル化する。
実験により,本手法の解釈可能性とその性能について,ベースライン法と比較して検証した。
論文 参考訳(メタデータ) (2024-08-19T06:06:30Z) - DiffusionPID: Interpreting Diffusion via Partial Information Decomposition [24.83767778658948]
入力テキストプロンプトを基本成分に分解するために,情報理論の原理を適用した。
個々のトークンとその相互作用が生成した画像をどのように形成するかを分析する。
PIDはテキスト・画像拡散モデルの評価と診断のための強力なツールであることを示す。
論文 参考訳(メタデータ) (2024-06-07T18:17:17Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Parts of Speech-Grounded Subspaces in Vision-Language Models [32.497303059356334]
本稿では,CLIPの視覚-言語空間における異なる視覚的モダリティの表現を分離することを提案する。
音声の特定の部分に対応する変動を捉える部分空間を学習し、他の部分への変動を最小化する。
提案手法は,視覚的外観に対応するサブ空間の学習を容易にする。
論文 参考訳(メタデータ) (2023-05-23T13:32:19Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Probing Multimodal Embeddings for Linguistic Properties: the
Visual-Semantic Case [0.5735035463793008]
画像キャプションペアの埋め込みのためのプロービングタスクの形式化について議論する。
実験により,視聴覚埋め込みの精度は,対応するユニモーダル埋め込みと比較して最大12%向上することが判明した。
論文 参考訳(メタデータ) (2021-02-22T15:47:04Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。