論文の概要: MyVLM: Personalizing VLMs for User-Specific Queries
- arxiv url: http://arxiv.org/abs/2403.14599v1
- Date: Thu, 21 Mar 2024 17:51:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:00:31.985409
- Title: MyVLM: Personalizing VLMs for User-Specific Queries
- Title(参考訳): MyVLM: ユーザ特化クエリのためのVLMのパーソナライズ
- Authors: Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or,
- Abstract要約: 視覚言語モデルのパーソナライズに向けての第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
様々なユーザ固有の概念を効果的に認識するために,モデルのトグルとして機能する外部概念ヘッドを付加する。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
- 参考スコア(独自算出の注目度): 78.33252556805931
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent large-scale vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and generating textual descriptions for visual content. However, these models lack an understanding of user-specific concepts. In this work, we take a first step toward the personalization of VLMs, enabling them to learn and reason over user-provided concepts. For example, we explore whether these models can learn to recognize you in an image and communicate what you are doing, tailoring the model to reflect your personal experiences and relationships. To effectively recognize a variety of user-specific concepts, we augment the VLM with external concept heads that function as toggles for the model, enabling the VLM to identify the presence of specific target concepts in a given image. Having recognized the concept, we learn a new concept embedding in the intermediate feature space of the VLM. This embedding is tasked with guiding the language model to naturally integrate the target concept in its generated response. We apply our technique to BLIP-2 and LLaVA for personalized image captioning and further show its applicability for personalized visual question-answering. Our experiments demonstrate our ability to generalize to unseen images of learned concepts while preserving the model behavior on unrelated inputs.
- Abstract(参考訳): 近年の大規模視覚言語モデル(VLM)は、視覚コンテンツに対するテキスト記述の理解と生成において顕著な能力を示している。
しかし、これらのモデルにはユーザー固有の概念の理解が欠けている。
本研究では,VLMのパーソナライズに向けて第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
例えば、これらのモデルが、イメージの中であなたを認識し、自分がやっていることを伝え、自分の個人的な経験や関係を反映するようにモデルを調整できるかどうかを探索する。
様々なユーザ固有の概念を効果的に認識するために、モデルのトグルとして機能する外部概念ヘッドを付加し、VLMが所定の画像中の特定のターゲット概念の存在を識別できるようにする。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
本手法をBLIP-2とLLaVAに応用して画像キャプションのパーソナライズを行い,さらにパーソナライズされた視覚的質問応答への適用性を示す。
実験では,無関係な入力に対するモデル動作を保ちながら,学習概念の未知の画像に一般化できることを実証した。
関連論文リスト
- Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Pre-trained Vision-Language Models Learn Discoverable Visual Concepts [33.302556000017844]
学習した視覚的概念が広範囲のアプリケーションを可能にすることを目標にしています。
事前学習されたVLMによってキャプチャされた視覚概念は、テキストベースの概念プロンプトで視覚言語インタフェースによって抽出できると仮定する。
提案する概念発見学習フレームワークは,汎用的な視覚概念の多種多様なリストを識別するように設計されている。
論文 参考訳(メタデータ) (2024-04-19T06:41:32Z) - If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions [9.190831897944957]
視覚言語モデル(VLM)の表現は、しばしば形状のような視覚的属性に基づいている。
本稿では,重要なテキスト特徴を特徴付ける新しい手法であるExtract and Explore (EX2)を提案する。
VLMは画像とシーン記述とを単純に一致させるのではなく、視覚的でない、あるいは刺激的でない記述がそれらの表現に大きな影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-25T06:05:50Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - "This is my unicorn, Fluffy": Personalizing frozen vision-language
representations [31.618829097336047]
パーソナライズドビジョン・アンド・ランゲージ(PerVL)と呼ばれる新しい学習環境を導入する。
PerVLでは、ダウンストリームタスクとは独立してパーソナライズされた概念を学ぶ必要がある。
本稿では,いくつかの例からパーソナライズされた視覚概念を学習し,画像検索やセマンティックセグメンテーションに効果的に適用できることを実証する。
論文 参考訳(メタデータ) (2022-04-04T17:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。