論文の概要: Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference
- arxiv url: http://arxiv.org/abs/2409.12150v1
- Date: Wed, 18 Sep 2024 17:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 16:35:11.490763
- Title: Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference
- Title(参考訳): デコードスタイル: 画像誘導型アウトフィットレコメンデーションのためのLLMの効率的な微調整
- Authors: Najmeh Forouzandehmehr, Nima Farrokhsiar, Ramin Giahi, Evren Korpeoglu, Kannan Achan,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の表現力を利用した,個人化された衣装推薦手法を提案する。
MLLM(Multimodal Large Language Model)を用いた画像キャプションによる項目記述の視覚的・テキスト的ギャップを橋渡しする。
このフレームワークは、Polyvoreデータセットで評価され、その効果を2つの重要なタスク、すなわちFill-in-the-blankと補完的なアイテム検索で実証する。
- 参考スコア(独自算出の注目度): 4.667044856219814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized outfit recommendation remains a complex challenge, demanding both fashion compatibility understanding and trend awareness. This paper presents a novel framework that harnesses the expressive power of large language models (LLMs) for this task, mitigating their "black box" and static nature through fine-tuning and direct feedback integration. We bridge the item visual-textual gap in items descriptions by employing image captioning with a Multimodal Large Language Model (MLLM). This enables the LLM to extract style and color characteristics from human-curated fashion images, forming the basis for personalized recommendations. The LLM is efficiently fine-tuned on the open-source Polyvore dataset of curated fashion images, optimizing its ability to recommend stylish outfits. A direct preference mechanism using negative examples is employed to enhance the LLM's decision-making process. This creates a self-enhancing AI feedback loop that continuously refines recommendations in line with seasonal fashion trends. Our framework is evaluated on the Polyvore dataset, demonstrating its effectiveness in two key tasks: fill-in-the-blank, and complementary item retrieval. These evaluations underline the framework's ability to generate stylish, trend-aligned outfit suggestions, continuously improving through direct feedback. The evaluation results demonstrated that our proposed framework significantly outperforms the base LLM, creating more cohesive outfits. The improved performance in these tasks underscores the proposed framework's potential to enhance the shopping experience with accurate suggestions, proving its effectiveness over the vanilla LLM based outfit generation.
- Abstract(参考訳): パーソナライズされた服装のレコメンデーションは、ファッション互換性の理解とトレンドの認識の両方を要求する、複雑な課題である。
本稿では,大規模言語モデル(LLM)の表現力を利用して,その「ブラックボックス」と静的な特性を微調整と直接フィードバック統合により緩和する枠組みを提案する。
画像キャプションをMLLM(Multimodal Large Language Model)を用いた画像キャプションを用いて,項目記述の視覚的・テキスト的ギャップを橋渡しする。
これにより、LLMは人造ファッション画像からスタイルや色の特徴を抽出し、パーソナライズされたレコメンデーションの基礎を形成することができる。
LLMは、キュレートされたファッション画像のオープンソースのPolyvoreデータセットを効率的に微調整し、スタイリッシュな服装を推奨する能力を最適化している。
負の例を用いた直接選好機構を用いてLCMの意思決定プロセスを強化する。
これにより、季節的なファッショントレンドに合わせてレコメンデーションを継続的に洗練する、自己改善型のAIフィードバックループが生成される。
本フレームワークはPolyvoreデータセットを用いて評価し,その有効性を示す2つの重要なタスクであるフィ・イン・ザ・ブランクと補足項目検索である。
これらの評価は、フレームワークがスタイリッシュでトレンドに整合した服装提案を生成する能力の基盤となり、直接的なフィードバックを通じて継続的に改善される。
評価の結果,提案手法はLLMよりも優れており,より密着性が高いことがわかった。
これらのタスクの性能向上は、バニラLCMベースの衣服生成に対する有効性を示すとともに、正確な提案によってショッピング体験を向上させるためのフレームワークの可能性を示している。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Enhancing High-order Interaction Awareness in LLM-based Recommender Model [3.7623606729515133]
本稿では,LLMベースのリコメンデータ(ELMRec)について述べる。
我々は、レコメンデーションのためのグラフ構築相互作用のLLM解釈を大幅に強化するために、単語全体の埋め込みを強化する。
ELMRecは、直接およびシーケンシャルなレコメンデーションの両方において、最先端(SOTA)メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-09-30T06:07:12Z) - Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。
LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Character-based Outfit Generation with Vision-augmented Style Extraction
via LLMs [8.694568783952667]
衣料品生成問題は、ユーザの興味に基づいて、完全な衣料品を推奨することを含む。
既存のアプローチでは、アンカーアイテムや特定のクエリスタイルに基づいたアイテムの推奨に重点を置いているが、映画やソーシャルメディアなどの有名キャラクターに対する顧客の関心は考慮していない。
我々は,文字情報を正確に解釈し,年齢や性別などの顧客仕様に従って完全な装束を生成することを目的とした,新しいキャラクタベースアウトフィット生成(COG)問題を定義する。
論文 参考訳(メタデータ) (2024-02-02T02:11:31Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Lost Your Style? Navigating with Semantic-Level Approach for
Text-to-Outfit Retrieval [2.07180164747172]
ファッションレコメンデーションの基盤となるアプローチとして,テキスト・ツー・アウトフィット検索タスクを導入する。
我々のモデルは3つのセマンティックレベル、スタイル、服装で考案され、各レベルがデータを段階的に集約し、一貫性のある服装勧告を形成する。
メリーランド・ポリボアとポリボア・アウトフィットのデータセットを用いて,本手法はテキストビデオ検索タスクにおける最先端モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-11-03T07:23:21Z) - LLM-Rec: Personalized Recommendation via Prompting Large Language Models [62.481065357472964]
大きな言語モデル(LLM)は、常識的な知識と推論を活用する能力を示した。
大規模言語モデル(LLM)の最近の進歩は、コモンセンスの知識と推論を活用できることを顕著に示している。
本研究では,パーソナライズされたテキストベースのレコメンデーションを改善するために,テキストエンリッチメントの4つの異なる促進戦略を取り入れた新しいアプローチ LLM-Rec を提案する。
論文 参考訳(メタデータ) (2023-07-24T18:47:38Z) - Attribute-aware Explainable Complementary Clothing Recommendation [37.30129304097086]
本研究は、ファッションレコメンデーションにおける説明可能性の課題に、新しいファッションレコメンデーションレコメンダ(AFRec)を提案して取り組むことを目的とする。
AFRecレコメンダは、各アイテムの視覚的特徴から抽出された属性レベルの表現を明示的に活用することで、服の互換性を評価する。
属性は2つのファッションアイテム間のブリッジとして機能し、そこでは属性間の学習された互換性を通じて、一対のアイテムの親和性を定量化する。
論文 参考訳(メタデータ) (2021-07-04T14:56:07Z) - Learning Diverse Fashion Collocation by Neural Graph Filtering [78.9188246136867]
本稿では,グラフニューラルネットワークを用いて,フレキシブルなファッションアイテムセットをモデル化する新しいファッションコロケーションフレームワークであるNeural Graph Filteringを提案する。
エッジベクトルに対称演算を適用することにより、このフレームワークは様々な入力/出力を許容し、それらの順序に不変である。
提案手法を,Polyvoreデータセット,Polyvore-Dデータセット,Amazon Fashionデータセットの3つの一般的なベンチマークで評価した。
論文 参考訳(メタデータ) (2020-03-11T16:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。