論文の概要: MC-LLaVA: Multi-Concept Personalized Vision-Language Model
- arxiv url: http://arxiv.org/abs/2411.11706v3
- Date: Wed, 26 Mar 2025 15:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:54.063057
- Title: MC-LLaVA: Multi-Concept Personalized Vision-Language Model
- Title(参考訳): MC-LLaVA:マルチコンセプトパーソナライズドビジョンランゲージモデル
- Authors: Ruichuan An, Sihan Yang, Ming Lu, Renrui Zhang, Kai Zeng, Yulin Luo, Jiajun Cao, Hao Liang, Ying Chen, Qi She, Shanghang Zhang, Wentao Zhang,
- Abstract要約: 本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
- 参考スコア(独自算出の注目度): 51.645660375766575
- License:
- Abstract: Current vision-language models (VLMs) show exceptional abilities across diverse tasks, such as visual question answering. To enhance user experience, recent studies investigate VLM personalization to understand user-provided concepts. However, they mainly focus on single-concept personalization, neglecting the existence and interplay of multiple concepts, which limits real-world applicability. This paper proposes the first multi-concept personalization paradigm, MC-LLaVA. Specifically, MC-LLaVA employs a multi-concept instruction tuning strategy, effectively integrating multiple concepts in a single training step. To reduce the costs related to joint training, we propose a personalized textual prompt that uses visual token information to initialize concept tokens. Additionally, we introduce a personalized visual prompt during inference, aggregating location confidence maps for enhanced recognition and grounding capabilities. To advance multi-concept personalization research, we further contribute a high-quality instruction tuning dataset. We carefully collect images with multiple characters and objects from movies and manually generate question-answer samples for multi-concept scenarios, featuring superior diversity. Comprehensive qualitative and quantitative experiments demonstrate that MC-LLaVA can achieve impressive multi-concept personalized responses, paving the way for VLMs to become better user-specific assistants. The code and dataset will be publicly available at https://github.com/arctanxarc/MC-LLaVA.
- Abstract(参考訳): 現在の視覚言語モデル(VLM)は、視覚的質問応答のような様々なタスクにまたがる例外的な能力を示している。
ユーザエクスペリエンスを向上させるために,ユーザが提供する概念を理解するために,VLMのパーソナライゼーションを検討する。
しかし、それらは主に、現実の応用性を制限する複数の概念の存在と相互作用を無視して、シングルコンセプトのパーソナライズに焦点を当てている。
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
具体的には、MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
共同学習に関連するコストを削減するために,視覚トークン情報を用いて概念トークンを初期化するパーソナライズされたテキストプロンプトを提案する。
さらに、推論中にパーソナライズされた視覚的プロンプトを導入し、認識とグラウンド機能を高めるために位置信頼マップを集約する。
マルチコンセプトパーソナライズ研究を推進すべく、我々はさらに高品質なチューニングチューニングデータセットに貢献する。
映画から複数の文字やオブジェクトの画像を注意深く収集し,多概念シナリオのための質問応答サンプルを手作業で生成し,多様性に優れる。
総合的な質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成でき、VLMがより良いユーザ固有のアシスタントになるための道を開いた。
コードとデータセットはhttps://github.com/arctanxarc/MC-LLaVAで公開される。
関連論文リスト
- ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning [40.70596166863986]
マルチコンセプトビデオカスタマイズ(MCVC)は依然として大きな課題である。
本研究では、カスタマイズされたビデオにおける概念の忠実さを維持しつつ、アイデンティティ分離の課題を効果的に解決する革新的なフレームワークであるConceptMasterを紹介する。
具体的には,拡散モデルに単体で注入された非結合型マルチコンセプト埋め込みを学習するための新しい戦略を導入する。
論文 参考訳(メタデータ) (2025-01-08T18:59:01Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - MyVLM: Personalizing VLMs for User-Specific Queries [78.33252556805931]
視覚言語モデルのパーソナライズに向けての第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
様々なユーザ固有の概念を効果的に認識するために,モデルのトグルとして機能する外部概念ヘッドを付加する。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
論文 参考訳(メタデータ) (2024-03-21T17:51:01Z) - A Competence-aware Curriculum for Visual Concepts Learning via Question
Answering [95.35905804211698]
本稿では,視覚概念学習のための質問応答型カリキュラムを提案する。
視覚概念を学習するためのニューラルシンボリックな概念学習者と学習プロセスを導くための多次元項目応答理論(mIRT)モデルを設計する。
CLEVRの実験結果から,コンピテンスを意識したカリキュラムにより,提案手法は最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2020-07-03T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。