論文の概要: Self-distilled Dynamic Fusion Network for Language-based Fashion Retrieval
- arxiv url: http://arxiv.org/abs/2405.15451v1
- Date: Fri, 24 May 2024 11:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 14:42:18.424007
- Title: Self-distilled Dynamic Fusion Network for Language-based Fashion Retrieval
- Title(参考訳): 言語に基づくファッション検索のための自己蒸留動的核融合ネットワーク
- Authors: Yiming Wu, Hangfei Li, Fangfang Wang, Yilong Zhang, Ronghua Liang,
- Abstract要約: 本稿では,多粒度特徴を動的に構成する自己蒸留型動的核融合ネットワークを提案する。
提案手法には,(1)モダリティ特異的ルータを用いた動的核融合ネットワークと(2)自己経路蒸留損失の2つの新たなモジュールが含まれている。
- 参考スコア(独自算出の注目度): 10.414536121730933
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the domain of language-based fashion image retrieval, pinpointing the desired fashion item using both a reference image and its accompanying textual description is an intriguing challenge. Existing approaches lean heavily on static fusion techniques, intertwining image and text. Despite their commendable advancements, these approaches are still limited by a deficiency in flexibility. In response, we propose a Self-distilled Dynamic Fusion Network to compose the multi-granularity features dynamically by considering the consistency of routing path and modality-specific information simultaneously. Two new modules are included in our proposed method: (1) Dynamic Fusion Network with Modality Specific Routers. The dynamic network enables a flexible determination of the routing for each reference image and modification text, taking into account their distinct semantics and distributions. (2) Self Path Distillation Loss. A stable path decision for queries benefits the optimization of feature extraction as well as routing, and we approach this by progressively refine the path decision with previous path information. Extensive experiments demonstrate the effectiveness of our proposed model compared to existing methods.
- Abstract(参考訳): 言語に基づくファッション画像検索の分野では、参照画像と付随するテキスト記述の両方を用いて、所望のファッションアイテムをピンポイントすることは、興味深い課題である。
既存のアプローチは、静的融合技術、画像とテキストの相互運用に大きく依存している。
これらの進歩にもかかわらず、これらのアプローチは柔軟性の欠如によって制限されている。
そこで本研究では,経路の整合性を考慮し,複数粒度の特徴を動的に構成する自己蒸留型動的核融合ネットワークを提案する。
提案手法には,(1)モーダリティ特定ルータを用いた動的フュージョンネットワークという2つの新しいモジュールが含まれている。
動的ネットワークは、それぞれの参照画像のルーティングを柔軟に決定し、それぞれのセマンティクスと分布を考慮に入れながら、テキストを修正できる。
2) 自己経路蒸留損失
クエリに対する安定な経路決定は,特徴抽出とルーティングの最適化の恩恵を受ける。
実験により,提案手法の有効性を実証した。
関連論文リスト
- D$^4$-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On [32.73798955587999]
D$4$-VTONは画像ベースの仮想試行のための革新的なソリューションである。
我々は,服飾の前後における意味的不整合など,過去の研究の課題に対処する。
論文 参考訳(メタデータ) (2024-07-21T10:40:53Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Unsupervised Image Fusion Method based on Feature Mutual Mapping [16.64607158983448]
上記の問題に対処するために,教師なし適応画像融合法を提案する。
入力元画像間の画素の接続を計測するグローバルマップを構築した。
本手法は視覚的知覚と客観的評価の両方において優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-25T07:50:14Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Dynamic Language Binding in Relational Visual Reasoning [67.85579756590478]
言語結合型オブジェクトグラフネットワークは,視覚領域とテキスト領域の両方にわたる動的関係構造を持つ最初のニューラル推論手法である。
本手法は,複数の対象関係が関係する高度な質問応答タスクにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2020-04-30T06:26:20Z) - Multi-Channel Attention Selection GANs for Guided Image-to-Image
Translation [148.9985519929653]
本稿では,画像から画像への変換のためのマルチチャネルアテンション選択生成支援ネットワーク(SelectionGAN)を提案する。
提案するフレームワークとモジュールは統合されたソリューションであり、セマンティック画像合成などの他の生成タスクに応用できる。
論文 参考訳(メタデータ) (2020-02-03T23:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。