論文の概要: Partial Visual-Semantic Embedding: Fashion Intelligence System with
Sensitive Part-by-Part Learning
- arxiv url: http://arxiv.org/abs/2211.06688v1
- Date: Sat, 12 Nov 2022 15:36:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:05:49.225171
- Title: Partial Visual-Semantic Embedding: Fashion Intelligence System with
Sensitive Part-by-Part Learning
- Title(参考訳): 部分的視覚的セマンティックな埋め込み: 分節学習によるファッションインテリジェンスシステム
- Authors: Ryotaro Shimizu, Takuma Nakamura, Masayuki Goto
- Abstract要約: ファッションインテリジェンスシステムは、ビジュアル・セマンティックな埋め込みモデルに基づいている。
本稿では,ファッション座標の各部分にセンシティブな学習を可能にする部分的VSEを提案する。
提案手法は計算複雑性を増大させることなく従来のモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we propose a technology called the Fashion Intelligence System
based on the visual-semantic embedding (VSE) model to quantify abstract and
complex expressions unique to fashion, such as ''casual,'' ''adult-casual,''
and ''office-casual,'' and to support users' understanding of fashion. However,
the existing VSE model does not support the situations in which the image is
composed of multiple parts such as hair, tops, pants, skirts, and shoes. We
propose partial VSE, which enables sensitive learning for each part of the
fashion coordinates. The proposed model partially learns embedded
representations. This helps retain the various existing practical
functionalities and enables image-retrieval tasks in which changes are made
only to the specified parts and image reordering tasks that focus on the
specified parts. This was not possible with conventional models. Based on both
the qualitative and quantitative evaluation experiments, we show that the
proposed model is superior to conventional models without increasing the
computational complexity.
- Abstract(参考訳): 本研究では,「カジュアル」や「カルト・カジュアル」や「オフィス・カジュアル」といった,ファッションに特有の抽象的かつ複雑な表現を定量化し,ユーザのファッション理解を支援するために,VSEモデルに基づくファッションインテリジェンスシステムを提案する。
しかし、既存のvseモデルは、髪、トップス、パンツ、スカート、靴など、複数の部分から構成されている状況をサポートしていない。
本稿では,ファッション座標の各部分にセンシティブな学習を可能にする部分的VSEを提案する。
提案モデルは部分的に組込み表現を学習する。
これにより、既存の様々な実用機能を維持し、特定の部分にのみ変更を加えるイメージ検索タスクと、特定の部分にフォーカスするイメージ並べ替えタスクを可能にする。
これは従来のモデルでは不可能だった。
定性的および定量的評価実験から,提案モデルが計算複雑性を増大させることなく従来のモデルよりも優れていることを示す。
関連論文リスト
- On human-centred security: A new systems model based on modes and mode transitions [0.0]
本稿では,複雑なセキュリティシステムを解析するための抽象的な概念的枠組みを提案する。
モードは、独自の目的を持つシステムの独立したコンポーネントであり、データ、アルゴリズム、スコープと制限を監視します。
我々は概念的枠組みを数学的に定式化し、高次元幾何学空間における信念を定量化し視覚化することによって、我々のモデルはシステムの設計、分析、説明の両方に役立つと論じる。
論文 参考訳(メタデータ) (2024-05-03T12:21:38Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Compositional diversity in visual concept learning [18.907108368038216]
人間は構成性を活用して、新しい概念を効率的に学習し、親しみのある部分がどのように結合して新しい物体を形成するかを理解する。
そこで本研究では,豊かな関係構造を持つ「異星人」の分類・生成方法について考察する。
我々は,候補となる視覚図を生成するための最適なプログラムを探索するベイズプログラム誘導モデルを開発した。
論文 参考訳(メタデータ) (2023-05-30T19:30:50Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。
生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。
モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - Defining Gaze Patterns for Process Model Literacy -- Exploring Visual
Routines in Process Models with Diverse Mappings [12.904061957053246]
プロセスモデルは、ドキュメント、コミュニケーション、コラボレーションに関する組織にとって重要なアーティファクトを描いています。
プロセスモデルリテラシーにおける重要な側面は、プロセスモデルに提示された情報が人間の視覚システムによってどのように抽出され、処理されるかという問題を構成する。
本稿では,プロセスモデル理解時の視覚的ルーチンを考察した探索的眼球追跡研究の知見を提供する。
論文 参考訳(メタデータ) (2021-11-04T14:13:48Z) - ModeRNN: Harnessing Spatiotemporal Mode Collapse in Unsupervised
Predictive Learning [75.2748374360642]
そこで本研究では,繰り返し状態間の隠れ構造表現を学習するための新しい手法であるModeRNNを提案する。
データセット全体にわたって、異なるモードがスロットの混合に対して異なるレスポンスをもたらすため、ModeRNNが構造化された表現を構築する能力が向上する。
論文 参考訳(メタデータ) (2021-10-08T03:47:54Z) - Deep Submodular Networks for Extractive Data Summarization [0.46898263272139784]
本稿では,要約問題に対するエンドツーエンド学習フレームワークを提案する。
Deep Submodular Networks (DSN)フレームワークは、スクラッチから要約に適した機能を学ぶために使用できる。
特に,DSNはオフ・ザ・シェルフ機能を用いて,単純な混合モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T19:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。