論文の概要: From Pixels to Posts: Retrieval-Augmented Fashion Captioning and Hashtag Generation
- arxiv url: http://arxiv.org/abs/2511.19149v1
- Date: Mon, 24 Nov 2025 14:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.244978
- Title: From Pixels to Posts: Retrieval-Augmented Fashion Captioning and Hashtag Generation
- Title(参考訳): Pixelからポストへ:検索機能強化されたファッションキャプションとハッシュタグ生成
- Authors: Moazzam Umer Gondal, Hamad Ul Qudous, Daniya Siddiqui, Asma Ahmad Farhan,
- Abstract要約: 本稿では,ファッションキャプションの自動生成とハッシュタグ生成のための検索フレームワークを提案する。
このパイプラインは、マルチガーメントローカライゼーションのためのYOLOベースの検出器、優占色抽出のためのk平均クラスタリング、布と性別属性推論のためのCLIP-FAISS検索モジュールを組み合わせる。
RAG-LLMパイプラインは、表現力のある属性対応キャプションを生成し、ハッシュタグ生成の50%の閾値で完全なカバレッジを持つ平均属性カバレッジ0.80を達成する。
- 参考スコア(独自算出の注目度): 1.1666234644810893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces the retrieval-augmented framework for automatic fashion caption and hashtag generation, combining multi-garment detection, attribute reasoning, and Large Language Model (LLM) prompting. The system aims to produce visually grounded, descriptive, and stylistically interesting text for fashion imagery, overcoming the limitations of end-to-end captioners that have problems with attribute fidelity and domain generalization. The pipeline combines a YOLO-based detector for multi-garment localization, k-means clustering for dominant color extraction, and a CLIP-FAISS retrieval module for fabric and gender attribute inference based on a structured product index. These attributes, together with retrieved style examples, create a factual evidence pack that is used to guide an LLM to generate human-like captions and contextually rich hashtags. A fine-tuned BLIP model is used as a supervised baseline model for comparison. Experimental results show that the YOLO detector is able to obtain a mean Average Precision (mAP@0.5) of 0.71 for nine categories of garments. The RAG-LLM pipeline generates expressive attribute-aligned captions and achieves mean attribute coverage of 0.80 with full coverage at the 50% threshold in hashtag generation, whereas BLIP gives higher lexical overlap and lower generalization. The retrieval-augmented approach exhibits better factual grounding, less hallucination, and great potential for scalable deployment in various clothing domains. These results demonstrate the use of retrieval-augmented generation as an effective and interpretable paradigm for automated and visually grounded fashion content generation.
- Abstract(参考訳): 本稿では,マルチガーメント検出,属性推論,およびLarge Language Model(LLM)プロンプトを組み合わせた,自動ファッションキャプションとハッシュタグ生成のための検索拡張フレームワークを提案する。
このシステムは、属性の忠実さやドメインの一般化に問題を抱えるエンドツーエンドのキャプタの限界を克服し、視覚的に座屈し、記述し、スタイリスティックに興味深いファッションイメージのテキストを作成することを目的としている。
このパイプラインは、マルチガーメントローカライゼーションのためのYOLOベースの検出器、優占色抽出のためのk平均クラスタリング、構造化積指数に基づく布地および性別属性推論のためのCLIP-FAISS検索モジュールを組み合わせる。
これらの属性は、検索されたスタイルの例とともに、LLMを誘導して人間に似たキャプションと文脈的にリッチなハッシュタグを生成するために使用される事実的エビデンスパックを作成する。
比較のための教師付きベースラインモデルとして、微調整BLIPモデルを用いる。
実験の結果、YOLO検出器は9種類の衣服に対して平均平均精度(mAP@0.5)が0.71であることが確認された。
RAG-LLMパイプラインは表現的属性対応キャプションを生成し、ハッシュタグ生成の50%の閾値でフルカバレッジで平均属性カバレッジ0.80を達成する。
検索強化アプローチは、より現実的な接地、幻覚の低減、および様々な衣服領域における拡張可能性を示す。
これらの結果から,ファッションコンテンツの自動生成と視覚的基盤生成において,検索拡張生成を効果的かつ解釈可能なパラダイムとして活用することを示す。
関連論文リスト
- Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation [72.34977512403643]
Retrieval-Augmented Generation (RAG) は、外部コーパスから関連文書を取得することで、大規模言語モデル(LLM)を強化するための強力なパラダイムとして登場した。
既存のRAGシステムは、主に平凡なテキスト文書に焦点を当てており、クエリとドキュメントの両方が(テキストや画像のような)混合モダリティを含む実世界のシナリオでは、しばしば不足している。
我々は,Universal Retrieval-Augmented Generationシナリオに適した混合モーダル-混合モーダルレトリバーであるNyxを提案する。
論文 参考訳(メタデータ) (2025-10-20T09:56:43Z) - MAPLE: Multi-scale Attribute-enhanced Prompt Learning for Few-shot Whole Slide Image Classification [31.29816380834296]
マルチスケールな視覚的セマンティクスを統合し,エンティティレベルとスライドレベルの両方で予測を行う,少数ショットWSI分類のための階層的フレームワークを提案する。
3つのがんコホートの結果から,病理診断におけるアプローチの有効性が確認された。
論文 参考訳(メタデータ) (2025-09-30T06:57:56Z) - ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation [23.118080583803266]
ROVIは,画像生成のための高品質な合成データセットである。
私たちの重要なイノベーションは、リキャプション(recaptioning)と呼ばれる戦略です。
実証的目的のために、ROVIで訓練されたテキスト・ツー・イメージモデルGLIGENは、例えば精度、迅速な忠実度、美的品質において最先端の代替品よりも著しく優れている。
論文 参考訳(メタデータ) (2025-08-01T18:19:51Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - HIP: Hierarchical Point Modeling and Pre-training for Visual Information Extraction [24.46493675079128]
OCRに依存した手法はオフラインのOCRエンジンに依存し、OCRに依存しない手法は解釈性に欠ける出力や幻覚的内容を含む出力を生成する。
我々は, 階層的視点をモデルとしたHIPを提案し, エンドツーエンドのVIEタスクの階層的性質をよりよく適合させる。
具体的には、このような階層的な点は柔軟に符号化され、その後所望のテキスト書き起こし、地域の中心、エンティティのカテゴリにデコードされる。
論文 参考訳(メタデータ) (2024-11-02T05:00:13Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。