論文の概要: Online-PVLM: Advancing Personalized VLMs with Online Concept Learning
- arxiv url: http://arxiv.org/abs/2511.20056v1
- Date: Tue, 25 Nov 2025 08:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.357909
- Title: Online-PVLM: Advancing Personalized VLMs with Online Concept Learning
- Title(参考訳): オンラインPVLM:オンライン概念学習によるパーソナライズされたVLMの改善
- Authors: Huiyu Bai, Runze Wang, Zhuoyun Du, Yiyang Zhao, Fengji Zhang, Haoyu Chen, Xiaoyong Zhu, Bo Zheng, Xuejiao Zhao,
- Abstract要約: Online-PVLMは、双曲表現を利用したオンライン概念学習のフレームワークである。
OP-Evalは1,292のコンセプトと、多様な質問型を持つ30K以上の高品質なインスタンスからなるベンチマークである。
- 参考スコア(独自算出の注目度): 19.46716778297505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized Visual Language Models (VLMs) are gaining increasing attention for their formidable ability in user-specific concepts aligned interactions (e.g., identifying a user's bike). Existing methods typically require the learning of separate embeddings for each new concept, which fails to support real-time adaptation during testing. This limitation becomes particularly pronounced in large-scale scenarios, where efficient retrieval of concept embeddings is not achievable. To alleviate this gap, we propose Online-PVLM, a framework for online concept learning by leveraging hyperbolic representations. Our approach makes a train-free paradigm for concept embeddings generation at test time, making the use of personalized VLMs both scalable and efficient. In addition, we develop OP-Eval, a comprehensive and large-scale benchmark comprising 1,292 concepts and over 30K high-quality instances with diverse question types, designed to rigorously assess online concept learning in realistic scenarios. Extensive experiments demonstrate the state-of-the-art performance of our proposed framework. Our source code and dataset will be made available.
- Abstract(参考訳): パーソナライズされたビジュアル言語モデル(VLM)は、ユーザ固有の概念が連携するインタラクション(例えば、ユーザの自転車を識別する)において、その強烈な能力に対して注目を集めている。
既存の手法では、テスト中のリアルタイム適応をサポートしない新しい概念ごとに個別の埋め込みを学習する必要がある。
この制限は、概念埋め込みの効率的な検索が達成できない大規模シナリオにおいて特に顕著になる。
このギャップを軽減するために,双曲表現を利用したオンライン概念学習フレームワークである Online-PVLM を提案する。
当社のアプローチでは,テスト時に概念を組み込むためのトレインフリーなパラダイムを構築し,個人化されたVLMをスケーラブルかつ効率的に活用する。
さらに、1,292のコンセプトと、多様な質問型を持つ30K以上の高品質なインスタンスからなる総合的かつ大規模なベンチマークであるOP-Evalを開発し、現実的なシナリオにおけるオンライン概念学習の厳密な評価を目的としている。
大規模な実験により,提案フレームワークの最先端性能が実証された。
ソースコードとデータセットが利用可能になります。
関連論文リスト
- Concept-Aware Batch Sampling Improves Language-Image Pretraining [78.53540190580189]
Concept-Aware Batch Smpling (CABS)は、バッチをオンザフライで柔軟に構築する、シンプルで効果的なバッチサンプリングフレームワークである。
CABSはCLIP/SigLIPモデルクラスに有益であり,高性能なモデルが得られることを示す。
全体として、CABSはプロプライエタリなオンラインデータキュレーションアルゴリズムに代わる強力なオープンソースである。
論文 参考訳(メタデータ) (2025-11-25T18:58:07Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2025-03-24T16:32:17Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - MyVLM: Personalizing VLMs for User-Specific Queries [78.33252556805931]
視覚言語モデルのパーソナライズに向けての第一歩を踏み出し,ユーザが提供する概念を学習し,推論することを可能にする。
様々なユーザ固有の概念を効果的に認識するために,モデルのトグルとして機能する外部概念ヘッドを付加する。
この概念を認識して、VLMの中間機能空間に埋め込まれた新しい概念を学習する。
この埋め込みは、言語モデルを誘導し、ターゲットの概念を生成された応答に自然に統合する。
論文 参考訳(メタデータ) (2024-03-21T17:51:01Z) - A Competence-aware Curriculum for Visual Concepts Learning via Question
Answering [95.35905804211698]
本稿では,視覚概念学習のための質問応答型カリキュラムを提案する。
視覚概念を学習するためのニューラルシンボリックな概念学習者と学習プロセスを導くための多次元項目応答理論(mIRT)モデルを設計する。
CLEVRの実験結果から,コンピテンスを意識したカリキュラムにより,提案手法は最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2020-07-03T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。