論文の概要: MC-LLaVA: Multi-Concept Personalized Vision-Language Model
- arxiv url: http://arxiv.org/abs/2503.18854v1
- Date: Mon, 24 Mar 2025 16:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:32.412521
- Title: MC-LLaVA: Multi-Concept Personalized Vision-Language Model
- Title(参考訳): MC-LLaVA:マルチコンセプトパーソナライズドビジョンランゲージモデル
- Authors: Ruichuan An, Sihan Yang, Ming Lu, Renrui Zhang, Kai Zeng, Yulin Luo, Jiajun Cao, Hao Liang, Ying Chen, Qi She, Shanghang Zhang, Wentao Zhang,
- Abstract要約: 本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
- 参考スコア(独自算出の注目度): 51.645660375766575
- License:
- Abstract: Current vision-language models (VLMs) show exceptional abilities across diverse tasks, such as visual question answering. To enhance user experience, recent studies investigate VLM personalization to understand user-provided concepts. However, they mainly focus on single-concept personalization, neglecting the existence and interplay of multiple concepts, which limits real-world applicability. This paper proposes the first multi-concept personalization paradigm, MC-LLaVA. Specifically, MC-LLaVA employs a multi-concept instruction tuning strategy, effectively integrating multiple concepts in a single training step. To reduce the costs related to joint training, we propose a personalized textual prompt that uses visual token information to initialize concept tokens. Additionally, we introduce a personalized visual prompt during inference, aggregating location confidence maps for enhanced recognition and grounding capabilities. To advance multi-concept personalization research, we further contribute a high-quality instruction tuning dataset. We carefully collect images with multiple characters and objects from movies and manually generate question-answer samples for multi-concept scenarios, featuring superior diversity. Comprehensive qualitative and quantitative experiments demonstrate that MC-LLaVA can achieve impressive multi-concept personalized responses, paving the way for VLMs to become better user-specific assistants. The code and dataset will be publicly available at $\href{https://github.com/arctanxarc/MC-LLaVA}{https://github.com/arctanxarc/MC-LLaVA}$.
- Abstract(参考訳): 現在の視覚言語モデル(VLM)は、視覚的質問応答のような様々なタスクにまたがる例外的な能力を示している。
ユーザエクスペリエンスを向上させるために,ユーザが提供する概念を理解するために,VLMのパーソナライゼーションを検討する。
しかし、それらは主に、現実の応用性を制限する複数の概念の存在と相互作用を無視して、シングルコンセプトのパーソナライズに焦点を当てている。
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
具体的には、MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
共同学習に関連するコストを削減するために,視覚トークン情報を用いて概念トークンを初期化するパーソナライズされたテキストプロンプトを提案する。
さらに、推論中にパーソナライズされた視覚的プロンプトを導入し、認識とグラウンド機能を高めるために位置信頼マップを集約する。
マルチコンセプトパーソナライズ研究を推進すべく、我々はさらに高品質なチューニングチューニングデータセットに貢献する。
映画から複数の文字やオブジェクトの画像を注意深く収集し,多概念シナリオのための質問応答サンプルを手作業で生成し,多様性に優れる。
総合的な質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成でき、VLMがより良いユーザ固有のアシスタントになるための道を開いた。
コードとデータセットは、$\href{https://github.com/arctanxarc/MC-LLaVA}{https://github.com/arctanxarc/MC-LLaVA}$で公開される。
関連論文リスト
- ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning [40.70596166863986]
マルチコンセプトビデオカスタマイズ(MCVC)は依然として大きな課題である。
本研究では、カスタマイズされたビデオにおける概念の忠実さを維持しつつ、アイデンティティ分離の課題を効果的に解決する革新的なフレームワークであるConceptMasterを紹介する。
具体的には,拡散モデルに単体で注入された非結合型マルチコンセプト埋め込みを学習するための新しい戦略を導入する。
論文 参考訳(メタデータ) (2025-01-08T18:59:01Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [44.325777035345695]
現在の視覚言語モデル(VLM)は、視覚的質問応答を含む様々なタスクにまたがる例外的な能力を示している。
本稿では,MC-LLaVA と呼ばれるマルチコンセプトパーソナライズ手法と高品質なマルチコンセプトパーソナライズデータセットを提案する。
我々は、MC-LLaVAが印象的なマルチコンセプトパーソナライズされた応答を達成できることを実証するために、総合的な質的、定量的な実験を行う。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - MyVLM: Personalizing VLMs for User-Specific Queries [78.33252556805931]
視覚言語モデルのパーソナライズに向けての第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
様々なユーザ固有の概念を効果的に認識するために,モデルのトグルとして機能する外部概念ヘッドを付加する。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
論文 参考訳(メタデータ) (2024-03-21T17:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。