論文の概要: MC-LLaVA: Multi-Concept Personalized Vision-Language Model
- arxiv url: http://arxiv.org/abs/2411.11706v1
- Date: Mon, 18 Nov 2024 16:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:16.351893
- Title: MC-LLaVA: Multi-Concept Personalized Vision-Language Model
- Title(参考訳): MC-LLaVA:マルチコンセプトパーソナライズドビジョンランゲージモデル
- Authors: Ruichuan An, Sihan Yang, Ming Lu, Kai Zeng, Yulin Luo, Ying Chen, Jiajun Cao, Hao Liang, Qi She, Shanghang Zhang, Wentao Zhang,
- Abstract要約: 現在の視覚言語モデル(VLM)は、視覚的質問応答を含む様々なタスクにまたがる例外的な能力を示している。
本稿では,MC-LLaVA と呼ばれるマルチコンセプトパーソナライズ手法と高品質なマルチコンセプトパーソナライズデータセットを提案する。
我々は、MC-LLaVAが印象的なマルチコンセプトパーソナライズされた応答を達成できることを実証するために、総合的な質的、定量的な実験を行う。
- 参考スコア(独自算出の注目度): 44.325777035345695
- License:
- Abstract: Current vision-language models (VLMs) show exceptional abilities across diverse tasks including visual question answering. To enhance user experience in practical applications, recent studies investigate VLM personalization to understand user-provided concepts. However, existing studies mainly focus on single-concept personalization, neglecting the existence and interplay of multiple concepts, which limits the real-world applicability of personalized VLMs. In this paper, we propose the first multi-concept personalization method named MC-LLaVA along with a high-quality multi-concept personalization dataset. Specifically, MC-LLaVA uses a joint training strategy incorporating multiple concepts in a single training step, allowing VLMs to perform accurately in multi-concept personalization. To reduce the cost of joint training, MC-LLaVA leverages visual token information for concept token initialization, yielding improved concept representation and accelerating joint training. To advance multi-concept personalization research, we further contribute a high-quality dataset. We carefully collect images from various movies that contain multiple characters and manually generate the multi-concept question-answer samples. Our dataset features diverse movie types and question-answer types. We conduct comprehensive qualitative and quantitative experiments to demonstrate that MC-LLaVA can achieve impressive multi-concept personalized responses, paving the way for VLMs to become better user-specific assistants. The code and dataset will be publicly available at https://github.com/arctanxarc/MC-LLaVA.
- Abstract(参考訳): 現在の視覚言語モデル(VLM)は、視覚的質問応答を含む様々なタスクにまたがる例外的な能力を示している。
近年,ユーザエクスペリエンスを高めるために,ユーザが提供する概念を理解するために,VLMのパーソナライズについて検討している。
しかし、既存の研究は主に単一概念のパーソナライゼーションに焦点をあて、複数の概念の存在と相互作用を無視し、パーソナライズされたVLMの現実的な適用性を制限している。
本稿では,MC-LLaVAと呼ばれるマルチコンセプトパーソナライズ手法と,高品質なマルチコンセプトパーソナライズデータセットを提案する。
具体的には、MC-LLaVAは、複数の概念を単一のトレーニングステップに組み込んだ共同トレーニング戦略を使用して、VLMがマルチコンセプトパーソナライゼーションにおいて正確に動作できるようにする。
共同トレーニングのコストを削減するため、MC-LLaVAは概念トークンの初期化に視覚トークン情報を活用する。
マルチコンセプトパーソナライズ研究を推進すべく、我々はさらに高品質なデータセットに貢献する。
我々は,複数の文字を含む様々な映画の画像を注意深く収集し,複数概念質問応答サンプルを手動で生成する。
本データセットは,多様な映画タイプと質問応答型を特徴とする。
我々は、MC-LLaVAが印象的なマルチコンセプトパーソナライズされた応答を達成でき、VLMがより良いユーザ固有アシスタントになる道を開くことを実証するために、包括的な質的、定量的な実験を行う。
コードとデータセットはhttps://github.com/arctanxarc/MC-LLaVAで公開される。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - MyVLM: Personalizing VLMs for User-Specific Queries [78.33252556805931]
視覚言語モデルのパーソナライズに向けての第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
様々なユーザ固有の概念を効果的に認識するために,モデルのトグルとして機能する外部概念ヘッドを付加する。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
論文 参考訳(メタデータ) (2024-03-21T17:51:01Z) - A Competence-aware Curriculum for Visual Concepts Learning via Question
Answering [95.35905804211698]
本稿では,視覚概念学習のための質問応答型カリキュラムを提案する。
視覚概念を学習するためのニューラルシンボリックな概念学習者と学習プロセスを導くための多次元項目応答理論(mIRT)モデルを設計する。
CLEVRの実験結果から,コンピテンスを意識したカリキュラムにより,提案手法は最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2020-07-03T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。