論文の概要: Contextualized Visual Personalization in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.03454v1
- Date: Tue, 03 Feb 2026 12:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.440475
- Title: Contextualized Visual Personalization in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける文脈的視覚的パーソナライゼーション
- Authors: Yeongtak Oh, Sangwon Yu, Junsung Park, Han Cheol Moon, Jisoo Mok, Sungroh Yoon,
- Abstract要約: 本稿では、コンテキスト化された視覚的パーソナライゼーションのコアタスクとして、パーソナライズされた画像キャプションを扱う統一的なフレームワークを提案する。
実験では、CoViPはパーソナライズされた画像キャプションを改善するだけでなく、下流のパーソナライゼーションタスク全体で全体的利益をもたらす。
これらの結果から、CoViPは、堅牢で一般化可能な視覚的パーソナライゼーションを実現するための重要な段階であることが示された。
- 参考スコア(独自算出の注目度): 51.3151397451851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in vision-language models (VLMs), existing approaches often fail to generate personalized responses based on the user's specific experiences, as they lack the ability to associate visual inputs with a user's accumulated visual-textual context. We newly formalize this challenge as contextualized visual personalization, which requires the visual recognition and textual retrieval of personalized visual experiences by VLMs when interpreting new images. To address this issue, we propose CoViP, a unified framework that treats personalized image captioning as a core task for contextualized visual personalization and improves this capability through reinforcement-learning-based post-training and caption-augmented generation. We further introduce diagnostic evaluations that explicitly rule out textual shortcut solutions and verify whether VLMs truly leverage visual context. Extensive experiments demonstrate that existing open-source and proprietary VLMs exhibit substantial limitations, while CoViP not only improves personalized image captioning but also yields holistic gains across downstream personalization tasks. These results highlight CoViP as a crucial stage for enabling robust and generalizable contextualized visual personalization.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩にもかかわらず、既存のアプローチでは、視覚的な入力とユーザの蓄積した視覚的テキストコンテキストを関連付ける能力がないため、ユーザの特定の経験に基づいてパーソナライズされた応答を生成することができないことが多い。
我々は、この課題を、新しい画像の解釈において、VLMによるパーソナライズされた視覚体験の視覚的認識とテキスト検索を必要とする、コンテキスト化された視覚的パーソナライゼーションとして、新たに定式化した。
この問題に対処するため、CoViPは、パーソナライズされた画像キャプションをコンテキスト化された視覚的パーソナライゼーションのコアタスクとして扱う統合フレームワークであり、強化学習に基づくポストトレーニングとキャプション強化による機能向上を実現する。
さらに、テキストショートカットソリューションを明示的に除外する診断評価を導入し、VLMが視覚的コンテキストを真に活用するかどうかを検証する。
大規模な実験では、既存のオープンソースおよびプロプライエタリなVLMが大幅に制限されているのに対し、CoViPはパーソナライズされたイメージキャプションを改善するだけでなく、下流のパーソナライゼーションタスク全体で全体的な利益をもたらす。
これらの結果から、CoViPは、堅牢で一般化可能な視覚的パーソナライゼーションを実現するための重要な段階であることが示された。
関連論文リスト
- Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Exploring Multimodal Prompt for Visualization Authoring with Large Language Models [12.43647167483504]
可視化オーサリングの文脈において,大言語モデル(LLM)が不明瞭あるいは不完全なテキストプロンプトをどのように解釈するかを検討する。
テキストプロンプトに補完的な入力モダリティとして視覚的プロンプトを導入し,ユーザの意図を明らかにする。
テキストやスケッチ,直接操作など,マルチモーダルなプロンプトを使って視覚化を簡単に作成できるVisPilotを設計する。
論文 参考訳(メタデータ) (2025-04-18T14:00:55Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。