論文の概要: FashionNTM: Multi-turn Fashion Image Retrieval via Cascaded Memory
- arxiv url: http://arxiv.org/abs/2308.10170v1
- Date: Sun, 20 Aug 2023 05:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:19:12.537566
- Title: FashionNTM: Multi-turn Fashion Image Retrieval via Cascaded Memory
- Title(参考訳): FashionNTM: カスケードメモリによるマルチターンファッション画像検索
- Authors: Anwesan Pal, Sahil Wadhwa, Ayush Jaiswal, Xu Zhang, Yue Wu, Rakesh
Chada, Pradeep Natarajan, and Henrik I. Christensen
- Abstract要約: マルチターンテキストフィードバックに基づくファッション画像検索は、現実世界の設定に焦点を当てる。
このようなマルチターンシステムに対して,FashionNTMと呼ばれる新しいメモリベース方式を提案する。
我々のフレームワークは、暗黙的な状態管理のための新しいCascaded Memory Neural Turing Machine (CM-NTM) アプローチを取り入れている。
- 参考スコア(独自算出の注目度): 16.777135193793267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn textual feedback-based fashion image retrieval focuses on a
real-world setting, where users can iteratively provide information to refine
retrieval results until they find an item that fits all their requirements. In
this work, we present a novel memory-based method, called FashionNTM, for such
a multi-turn system. Our framework incorporates a new Cascaded Memory Neural
Turing Machine (CM-NTM) approach for implicit state management, thereby
learning to integrate information across all past turns to retrieve new images,
for a given turn. Unlike vanilla Neural Turing Machine (NTM), our CM-NTM
operates on multiple inputs, which interact with their respective memories via
individual read and write heads, to learn complex relationships. Extensive
evaluation results show that our proposed method outperforms the previous
state-of-the-art algorithm by 50.5%, on Multi-turn FashionIQ -- the only
existing multi-turn fashion dataset currently, in addition to having a relative
improvement of 12.6% on Multi-turn Shoes -- an extension of the single-turn
Shoes dataset that we created in this work. Further analysis of the model in a
real-world interactive setting demonstrates two important capabilities of our
model -- memory retention across turns, and agnosticity to turn order for
non-contradictory feedback. Finally, user study results show that images
retrieved by FashionNTM were favored by 83.1% over other multi-turn models.
Project page: https://sites.google.com/eng.ucsd.edu/fashionntm
- Abstract(参考訳): マルチターンのテキストフィードバックに基づくファッション画像検索は、ユーザーが全ての要求に合致するアイテムを見つけるまで、検索結果を洗練するための情報を反復的に提供できる現実の環境に焦点を当てている。
本稿では,このようなマルチターンシステムのための新しいメモリベース手法であるfaspentmを提案する。
我々のフレームワークは、暗黙的な状態管理のための新しいカスケードメモリニューラルチューリングマシン(CM-NTM)アプローチを取り入れており、それによって過去のすべてのターンにまたがる情報を学習して、与えられたターンに新しい画像を取得する。
バニラニューラルチューリングマシン(NTM)とは異なり、CM-NTMは複数の入力で動作し、個々の読み書きヘッドを介してそれぞれのメモリと相互作用し、複雑な関係を学ぶ。
広範な評価結果から,提案手法は,本研究で作成したシングルターンシューズデータセットの拡張であるマルチターン・ファッショナリデータセットの相対的改善に加えて,既存のマルチターン・ファッションデータセットであるマルチターン・ファッショナリiqにおいて,従来の最先端アルゴリズムを50.5%上回った。
実世界のインタラクティブな環境でのモデルのさらなる分析は、ターン間のメモリ保持と、非矛盾的なフィードバックの順序を変えることの不可知性の2つの重要な機能を示す。
最後に、ユーザ調査の結果、FashionNTMで取得した画像は他のマルチターンモデルよりも83.1%好まれていた。
プロジェクトページ: https://sites.google.com/eng.ucsd.edu/fashionntm
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - ImageBind: One Embedding Space To Bind Them All [41.46167013891263]
ImageBindは、6つの異なるモードにまたがる共同埋め込みを学ぶためのアプローチだ。
画像ペアデータだけがモダリティを結合するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-09T17:59:07Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Fashionformer: A simple, Effective and Unified Baseline for Human
Fashion Segmentation and Recognition [80.74495836502919]
本研究では,共同ファッションセグメンテーションと属性認識に着目した。
本稿では,セグメンテーションのためのオブジェクトクエリと属性予測のための属性クエリを紹介する。
属性ストリームのために,よりきめ細かい特徴を探索する新しいマルチレイヤレンダリングモジュールを設計する。
論文 参考訳(メタデータ) (2022-04-10T11:11:10Z) - Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval [36.50847375135979]
ビデオデータからのマルチモーダル学習は、人間のアノテーションを使わずに意味のある埋め込みを訓練できるため、近年注目を集めている。
本稿では,ビデオ,音声,テキストなどの複数のモーダル間の情報交換を学習し,それらを結合したマルチモーダル表現に統合するマルチモーダル・モーダル融合トランスフォーマ手法を提案する。
論文 参考訳(メタデータ) (2021-12-08T18:14:57Z) - Conversational Fashion Image Retrieval via Multiturn Natural Language
Feedback [36.623221002330226]
マルチターン自然言語による対話型ファッション画像検索の課題について検討する。
本稿では,対話型ファッション画像検索を多ターン自然言語フィードバックテキストで効果的に処理できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T06:34:25Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Learning Diverse Fashion Collocation by Neural Graph Filtering [78.9188246136867]
本稿では,グラフニューラルネットワークを用いて,フレキシブルなファッションアイテムセットをモデル化する新しいファッションコロケーションフレームワークであるNeural Graph Filteringを提案する。
エッジベクトルに対称演算を適用することにより、このフレームワークは様々な入力/出力を許容し、それらの順序に不変である。
提案手法を,Polyvoreデータセット,Polyvore-Dデータセット,Amazon Fashionデータセットの3つの一般的なベンチマークで評価した。
論文 参考訳(メタデータ) (2020-03-11T16:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。