論文の概要: MMPB: It's Time for Multi-Modal Personalization
- arxiv url: http://arxiv.org/abs/2509.22820v2
- Date: Tue, 30 Sep 2025 03:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.387613
- Title: MMPB: It's Time for Multi-Modal Personalization
- Title(参考訳): MMPB:マルチモーダルパーソナライゼーションの時代
- Authors: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do,
- Abstract要約: パーソナライズにおける視覚言語モデル(VLM)を評価するための,最初の広範囲なベンチマークであるMMPBを紹介する。
MMPBは10kイメージクエリペアで構成されており、人間、動物、物体、キャラクターの4つのカテゴリにまたがる111のパーソナライズ可能な概念を含んでいる。
我々は,概念注入,マルチターン対話,パーソナライズクエリといった3段階のプロトコルを用いてパーソナライズ性能を評価する。
- 参考スコア(独自算出の注目度): 7.876682671110321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual personalization is essential in user-facing AI systems such as smart homes and healthcare, where aligning model behavior with user-centric concepts is critical. However, recent large Vision-Language Models (VLMs), despite their broad applicability, remain underexplored in their ability to adapt to individual users. In this paper, we introduce MMPB, the first extensive benchmark for evaluating VLMs on personalization. MMPB comprises 10k image-query pairs and includes 111 personalizable concepts across four categories: humans, animals, objects, and characters, with the human category enriched with preference-grounded queries. We structure personalization into three main task types, each highlighting a different key property of VLMs. Using 23 widely used VLMs including both open- and closed-source models, we evaluate personalization performance via a three-stage protocol: concept injection, multi-turn dialogue, and personalized querying. Our findings indicate that most VLMs (including some closed-source models) struggle with personalization, particularly in maintaining consistency over dialogue, handling user preferences, and adapting to visual cues. Our analysis reveals that the challenges in VLM personalization (such as refusal behaviors and long-context forgetting) highlight substantial room for improvement. By identifying these limitations and offering a scalable benchmark, MMPB offers valuable insights and a solid foundation for future research toward truly personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB
- Abstract(参考訳): 視覚的パーソナライゼーションは、モデル行動とユーザ中心の概念の整合性が不可欠であるスマートホームやヘルスケアといった、ユーザ向きのAIシステムにおいて不可欠である。
しかし、近年の大規模なビジョン・ランゲージ・モデル(VLM)は、広く適用可能であるにもかかわらず、個々のユーザーに適応する能力について過小評価されている。
本稿では,パーソナライズによるVLM評価のためのベンチマークであるMMPBを紹介する。
MMPBは10kイメージクエリペアで構成されており、人間、動物、オブジェクト、文字の4つのカテゴリにまたがる111のパーソナライズ可能な概念と、好みのグラウンドドクエリに富んだ人間のカテゴリを含んでいる。
我々はパーソナライゼーションを3つの主要なタスクタイプに構成し、それぞれがVLMの異なるキー特性を強調する。
オープンソースモデルとクローズドソースモデルの両方を含む23種類のVLMを用いて,概念注入,マルチターン対話,パーソナライズクエリといった3段階のプロトコルを用いてパーソナライズ性能を評価する。
以上の結果から,ほとんどのVLM(クローズドソースモデルを含む)は,対話の一貫性の維持,ユーザの好みの扱い,視覚的手がかりへの適応など,パーソナライズに苦慮していることが明らかとなった。
分析の結果,VLMのパーソナライゼーションの課題(拒絶行動や長いコンテキストの忘れなど)は,改善の余地があることが判明した。
これらの制限を特定し、スケーラブルなベンチマークを提供することによって、MMPBは、真にパーソナライズされたマルチモーダルAIに向けた将来の研究のための、価値ある洞察と確かな基盤を提供する。
Project Page: aidaslab.github.io/MMPB
関連論文リスト
- A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2025-03-24T16:32:17Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。
この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。
我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:46:53Z) - PEFT-U: Parameter-Efficient Fine-Tuning for User Personalization [9.594958534074074]
ユーザパーソナライズのためのNLPモデルの構築と評価のための新しいデータセットであるPEFT-Uベンチマークを紹介する。
多様なユーザ中心タスクのコンテキストにおいて、LLMを効率よくパーソナライズし、ユーザ固有の嗜好に適合させるという課題について検討する。
論文 参考訳(メタデータ) (2024-07-25T14:36:18Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。