論文の概要: Conversational Fashion Image Retrieval via Multiturn Natural Language
Feedback
- arxiv url: http://arxiv.org/abs/2106.04128v1
- Date: Tue, 8 Jun 2021 06:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:42:49.249125
- Title: Conversational Fashion Image Retrieval via Multiturn Natural Language
Feedback
- Title(参考訳): マルチターン自然言語フィードバックによる会話ファッション画像検索
- Authors: Yifei Yuan and Wai Lam
- Abstract要約: マルチターン自然言語による対話型ファッション画像検索の課題について検討する。
本稿では,対話型ファッション画像検索を多ターン自然言語フィードバックテキストで効果的に処理できる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.623221002330226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the task of conversational fashion image retrieval via multiturn
natural language feedback. Most previous studies are based on single-turn
settings. Existing models on multiturn conversational fashion image retrieval
have limitations, such as employing traditional models, and leading to
ineffective performance. We propose a novel framework that can effectively
handle conversational fashion image retrieval with multiturn natural language
feedback texts. One characteristic of the framework is that it searches for
candidate images based on exploitation of the encoded reference image and
feedback text information together with the conversation history. Furthermore,
the image fashion attribute information is leveraged via a mutual attention
strategy. Since there is no existing fashion dataset suitable for the multiturn
setting of our task, we derive a large-scale multiturn fashion dataset via
additional manual annotation efforts on an existing single-turn dataset. The
experiments show that our proposed model significantly outperforms existing
state-of-the-art methods.
- Abstract(参考訳): マルチターン自然言語フィードバックによる会話型ファッション画像検索の課題について検討する。
以前の研究のほとんどはシングルターンの設定に基づいている。
マルチターン型会話型画像検索の既存モデルには,従来のモデルの採用や非効率化といった制限がある。
本稿では,対話型ファッション画像検索を多ターン自然言語フィードバックテキストで効果的に処理できる新しいフレームワークを提案する。
このフレームワークの特徴の1つは、符号化された参照画像の活用に基づく候補画像の検索と、会話履歴と共にテキスト情報へのフィードバックである。
さらに、画像ファッション属性情報を相互注意戦略を介して活用する。
タスクのマルチターン設定に適した既存のファッションデータセットは存在しないため、既存のシングルターンデータセットに手作業による付加的なアノテーションによって、大規模なマルチターンファッションデータセットを導出する。
実験の結果,提案手法は既存の最先端手法よりも優れていた。
関連論文リスト
- ENCLIP: Ensembling and Clustering-Based Contrastive Language-Image Pretraining for Fashion Multimodal Search with Limited Data and Low-Quality Images [1.534667887016089]
本稿では,CLIP(Contrastive Language- Image Pretraining)モデルの性能向上を目的とした,ENCLIPと呼ばれる革新的なアプローチを提案する。
これは、限られたデータ可用性と低品質の画像によって引き起こされる課題に対処することに焦点を当てている。
論文 参考訳(メタデータ) (2024-11-25T05:15:38Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Modality-Agnostic Attention Fusion for visual search with text feedback [5.650501970986438]
我々の Modality-Agnostic Attention Fusion (MAAF) モデルは、画像とテキストの特徴を組み合わせて、既存の2つのビジュアル検索データセットよりも優れている。
Birds-to-WordsとSpot-the-Diffの2つの新しい挑戦的ベンチマークを導入し、リッチな言語入力で新しい設定を提供する。
モデルをよりよく理解するために、Fashion IQの詳細な説明を行い、参照する画像領域に「入らない」単語の驚くべき現象を可視化する。
論文 参考訳(メタデータ) (2020-06-30T22:55:02Z) - FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal
Retrieval [31.822218310945036]
FashionBERTはテキストや画像のハイレベルな表現を学習する。
FashionBERTは、ベースラインや最先端のアプローチよりもパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2020-05-20T00:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。