論文の概要: Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond
- arxiv url: http://arxiv.org/abs/2403.10667v1
- Date: Fri, 15 Mar 2024 20:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:24:30.299971
- Title: Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond
- Title(参考訳): 統一型マルチモーダルパーソナライゼーションに向けて--ジェネレーティブレコメンデーションのための大規模ビジョンランゲージモデル
- Authors: Tianxin Wei, Bowen Jin, Ruirui Li, Hansi Zeng, Zhengyang Wang, Jianhui Sun, Qingyu Yin, Hanqing Lu, Suhang Wang, Jingrui He, Xianfeng Tang,
- Abstract要約: 我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
- 参考スコア(独自算出の注目度): 87.1712108247199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing a universal model that can effectively harness heterogeneous resources and respond to a wide range of personalized needs has been a longstanding community aspiration. Our daily choices, especially in domains like fashion and retail, are substantially shaped by multi-modal data, such as pictures and textual descriptions. These modalities not only offer intuitive guidance but also cater to personalized user preferences. However, the predominant personalization approaches mainly focus on the ID or text-based recommendation problem, failing to comprehend the information spanning various tasks or modalities. In this paper, our goal is to establish a Unified paradigm for Multi-modal Personalization systems (UniMP), which effectively leverages multi-modal data while eliminating the complexities associated with task- and modality-specific customization. We argue that the advancements in foundational generative modeling have provided the flexibility and effectiveness necessary to achieve the objective. In light of this, we develop a generic and extensible personalization generative framework, that can handle a wide range of personalized needs including item recommendation, product search, preference prediction, explanation generation, and further user-guided image generation. Our methodology enhances the capabilities of foundational language models for personalized tasks by seamlessly ingesting interleaved cross-modal user history information, ensuring a more precise and customized experience for users. To train and evaluate the proposed multi-modal personalized tasks, we also introduce a novel and comprehensive benchmark covering a variety of user requirements. Our experiments on the real-world benchmark showcase the model's potential, outperforming competitive methods specialized for each task.
- Abstract(参考訳): 異種資源を効果的に活用し、幅広いパーソナライズされたニーズに対応する普遍的なモデルの開発は、長年にわたるコミュニティの願望であった。
ファッションや小売といった分野における私たちの日常的な選択は、写真やテキスト記述といったマルチモーダルなデータによって大きく形作られています。
これらのモダリティは直感的なガイダンスを提供するだけでなく、パーソナライズされたユーザー嗜好に対応している。
しかし、主なパーソナライゼーションアプローチは、主にIDやテキストベースのレコメンデーションの問題に焦点を当てており、様々なタスクやモダリティにまたがる情報を理解できない。
本稿では,マルチモーダルパーソナライゼーションシステム(UniMP)の統一パラダイムを確立することを目的としている。
基礎的生成モデリングの進歩は、その目的を達成するのに必要な柔軟性と有効性をもたらしたと論じる。
そこで我々は,項目推薦,製品検索,嗜好予測,説明生成,さらにユーザ誘導画像生成など,幅広いパーソナライズされたニーズを処理できる汎用的かつ拡張可能なパーソナライズ生成フレームワークを開発する。
本手法は,インターリーブされたクロスモーダルなユーザ履歴情報をシームレスに取り込み,ユーザにとってより正確でカスタマイズされた体験を提供することにより,パーソナライズされたタスクのための基礎言語モデルの能力を向上させる。
提案するマルチモーダルなパーソナライズされたタスクをトレーニングし評価するために,さまざまなユーザ要件をカバーする,新しい総合的なベンチマークを導入する。
実世界のベンチマーク実験では、各タスクに特有な競争手法よりも優れたモデルの可能性を示しました。
関連論文リスト
- Personalized Image Generation with Large Multimodal Models [47.289887243367055]
そこで我々はPersonalized Image Generation Framework(PSH)を提案し,ユーザの視覚的嗜好やニーズをノイズの多いユーザ履歴やマルチモーダルな指示から捉える。
パーソナライズされたステッカーとポスター生成にPigeonを応用し,様々な生成ベースラインよりも定量的な結果と人的評価が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-18T04:20:46Z) - PEFT-U: Parameter-Efficient Fine-Tuning for User Personalization [9.594958534074074]
ユーザパーソナライズのためのNLPモデルの構築と評価のための新しいデータセットであるPEFT-Uベンチマークを紹介する。
多様なユーザ中心タスクのコンテキストにおいて、LLMを効率よくパーソナライズし、ユーザ固有の嗜好に適合させるという課題について検討する。
論文 参考訳(メタデータ) (2024-07-25T14:36:18Z) - PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Generating Illustrated Instructions [41.613203340244155]
ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。
大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで,StackedDiffusionと呼ばれるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:20Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - When Large Language Models Meet Personalization: Perspectives of
Challenges and Opportunities [60.5609416496429]
大規模言語モデルの能力は劇的に改善されている。
このような大きな飛躍的なAI能力は、パーソナライゼーションの実施方法のパターンを変えるだろう。
大規模言語モデルを汎用インターフェースとして活用することにより、パーソナライズシステムはユーザ要求を計画にコンパイルすることができる。
論文 参考訳(メタデータ) (2023-07-31T02:48:56Z) - Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image
Classification and Generation [0.0]
我々はBradley-Terry選好モデルを利用して、元のモデルを効率的に微調整する高速適応法を開発した。
このフレームワークの能力の広範な証拠は、マルチモーダルテキストや画像理解に関連するさまざまな領域の実験を通じて提供される。
論文 参考訳(メタデータ) (2023-07-15T07:53:12Z) - Personalized Multimodal Feedback Generation in Education [50.95346877192268]
学校課題の自動評価は、教育分野におけるAIの重要な応用である。
モーダルゲート機構とパーソナライズされたバイアス機構を備えたPMFGN(Personalized Multimodal Feedback Generation Network)を提案する。
我々のモデルは、より正確で多様なフィードバックを生成することによって、いくつかのベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2020-10-31T05:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。