論文の概要: Ego: Embedding-Guided Personalization of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.09771v1
- Date: Tue, 10 Mar 2026 15:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.412602
- Title: Ego: Embedding-Guided Personalization of Vision-Language Models
- Title(参考訳): Ego: 視覚言語モデルの埋め込みガイドによるパーソナライズ
- Authors: Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi,
- Abstract要約: 本稿では,パーソナライズされた概念をキャプチャするモデル固有の能力を活用する,効率的なパーソナライズ手法を提案する。
具体的には、主にターゲット概念を表す視覚トークンを抽出する。
これらのトークンは、その特定の概念のメモリとして機能し、テストイメージに現れる時にモデルをリコールし、記述することができる。
- 参考スコア(独自算出の注目度): 8.63838537704658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI assistants that support humans in daily life are becoming increasingly feasible, driven by the rapid advancements in multimodal language models. A key challenge lies in overcoming the generic nature of these models to deliver personalized experiences. Existing approaches to personalizing large vision language models often rely on additional training stages, which limit generality and scalability, or on engineered pipelines with external pre-trained modules, which hinder deployment efficiency. In this work, we propose an efficient personalization method that leverages the model's inherent ability to capture personalized concepts. Specifically, we extract visual tokens that predominantly represent the target concept by utilizing the model's internal attention mechanisms. These tokens serve as a memory of that specific concept, enabling the model to recall and describe it when it appears in test images. We conduct a comprehensive and unified evaluation of our approach and SOTA methods across various personalization settings including single-concept, multi-concept, and video personalization, demonstrating strong performance gains with minimal personalization overhead.
- Abstract(参考訳): 日々の生活で人間をサポートするAIアシスタントは、マルチモーダル言語モデルの急速な進歩によって、ますます実現可能性が高まっている。
重要な課題は、パーソナライズされたエクスペリエンスを提供するために、これらのモデルの一般的な性質を克服することである。
大規模なビジョン言語モデルをパーソナライズするための既存のアプローチは、汎用性とスケーラビリティを制限する追加のトレーニングステージや、デプロイ効率を阻害する外部のトレーニング済みモジュールを備えたエンジニアリングパイプラインに依存していることが多い。
本研究では,パーソナライズされた概念をキャプチャするモデル固有の能力を活用する,効率的なパーソナライズ手法を提案する。
具体的には、モデルの内部の注意機構を利用して、主に対象概念を表す視覚トークンを抽出する。
これらのトークンは、その特定の概念のメモリとして機能し、テストイメージに現れる時にモデルをリコールし、記述することができる。
我々は,シングルコンセプト,マルチコンセプト,ビデオパーソナライゼーションなど,さまざまなパーソナライズ設定におけるアプローチとSOTA手法の総合的,統一的な評価を行い,パーソナライズオーバーヘッドを最小限に抑えたパフォーマンス向上を示す。
関連論文リスト
- Unified Personalized Understanding, Generating and Editing [54.5563878110386]
統一LMMのためのエンドツーエンドパーソナライズフレームワークである textbf OmniPersona を提案する。
パーソナライズされた理解、生成、画像編集を単一のアーキテクチャに統合する。
実験によると、OmniPersonaは多様なパーソナライゼーションタスクに対して、競争力と堅牢なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2026-01-11T15:46:34Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2025-03-24T16:32:17Z) - Personalization Toolkit: Training Free Personalization of Large Vision Language Models [11.026377387506216]
LVLM(Large Vision-Language Models)のパーソナライズには、特定のユーザやオブジェクトのインスタンスを認識し、コンテキストに合わせて調整された応答を生成するためのモデルをカスタマイズする必要がある。
既存のアプローチは一般的に、ユーザやオブジェクトごとに時間を要するテスト時間のトレーニングに依存します。
本稿では,LVLMのパーソナライズに対する新たなトレーニングフリーアプローチを提案するとともに,パーソナライズタスクのさまざまな側面を厳格に評価するために設計された,包括的な実世界ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:19:20Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。
この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。
我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:46:53Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。