論文の概要: Personal Visual Context Learning in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2605.10936v1
- Date: Mon, 11 May 2026 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.062011
- Title: Personal Visual Context Learning in Large Multimodal Models
- Title(参考訳): 大規模マルチモーダルモデルにおける個人的視覚文脈学習
- Authors: Zihui Xue, Ami Baid, Sangho Kim, Mi Luo, Kristen Grauman,
- Abstract要約: パーソナライズされたクエリを解決するために,ユーザ固有の視覚的コンテキストを使用する即時学習機能であるPersonal Visual Context Learning(Personal)を提案する。
LMMを解析した結果,視覚的エビデンスを活用するメカニズムや,複数の視覚的観察を集約するメカニズムが重要視されていることが明らかとなった。
本稿では,ユーザの視覚的コンテキストを自己修復型メモリバンクに構造化し,クエリ適応型エビデンス選択を採用する強力なベースラインであるエージェントコンテキストバンクを提案する。
- 参考スコア(独自算出の注目度): 53.33351452841322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As wearable devices like smart glasses integrate Large Multimodal Models (LMMs) into the continuous first-person visual streams of individual users, the evolution of these models into true personal assistants hinges on visual personalization: the ability to reason over visual information unique to the wearer. We formalize this capability as Personal Visual Context Learning (Personal VCL), the prompt-time capability of using user-specific visual context to resolve personalized queries. To systematically evaluate this, we present Personal-VCL-Bench, a comprehensive benchmark capturing the personal visual world across persons, objects, and behaviors. Our analysis of frontier LMMs identifies a profound context utilization gap, revealing that the mechanisms for leveraging visual evidence, as well as aggregating multiple visual observations, remain critically understudied. Motivated by these findings, we propose the Agentic Context Bank, a strong inference-time baseline that structures a user's visual context into a self-refining memory bank and employs query-adaptive evidence selection. Our baseline approach consistently improves over standard context prompting regimes across tasks and evaluated backbones, demonstrating a practical path towards future personalized LMMs.
- Abstract(参考訳): スマートグラスのようなウェアラブルデバイスは、Large Multimodal Models(LMM)を個々のユーザーの連続した一対一の視覚ストリームに統合するので、これらのモデルの真のパーソナルアシスタントへの進化は、視覚的パーソナライゼーション、すなわち着用者に特有の視覚的情報を推論する能力に依存している。
我々は、パーソナライズされたクエリを解決するために、ユーザ固有のビジュアルコンテキストを使用する即時能力であるパーソナライズされたビジュアルコンテキスト学習(Personal VCL)として、この機能を形式化する。
これを体系的に評価するためにPersonal-VCL-Benchを提案する。
また,フロンティアのLMMを解析した結果,視覚的エビデンスを活用するメカニズムや,複数の視覚的観察を集約するメカニズムが重要視されていることが明らかとなった。
提案するエージェントコンテキストバンクは,ユーザの視覚的コンテキストを自己修正型メモリバンクに構造化し,クエリ適応型エビデンス選択を採用する強力な推論時間ベースラインである。
我々のベースラインアプローチは、タスク全体にわたるレシシエーションを促進し、バックボーンを評価し、将来のパーソナライズされたLMMへの実践的な道筋を示す。
関連論文リスト
- Contextualized Visual Personalization in Vision-Language Models [51.3151397451851]
本稿では、コンテキスト化された視覚的パーソナライゼーションのコアタスクとして、パーソナライズされた画像キャプションを扱う統一的なフレームワークを提案する。
実験では、CoViPはパーソナライズされた画像キャプションを改善するだけでなく、下流のパーソナライゼーションタスク全体で全体的利益をもたらす。
これらの結果から、CoViPは、堅牢で一般化可能な視覚的パーソナライゼーションを実現するための重要な段階であることが示された。
論文 参考訳(メタデータ) (2026-02-03T12:21:26Z) - Enabling Personalized Long-term Interactions in LLM-based Agents through Persistent Memory and User Profiles [0.4885400580268118]
大規模言語モデル(LLM)はAIエージェントの中央制御ユニットとしての役割を担っている。
本稿では、パーソナライズされた長期的なインタラクションを実現するために、永続メモリ、動的コーディネーション、自己検証、およびユーザプロファイルの進化を統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T08:22:16Z) - Personalization Toolkit: Training Free Personalization of Large Vision Language Models [11.026377387506216]
LVLM(Large Vision-Language Models)のパーソナライズには、特定のユーザやオブジェクトのインスタンスを認識し、コンテキストに合わせて調整された応答を生成するためのモデルをカスタマイズする必要がある。
既存のアプローチは一般的に、ユーザやオブジェクトごとに時間を要するテスト時間のトレーニングに依存します。
本稿では,LVLMのパーソナライズに対する新たなトレーニングフリーアプローチを提案するとともに,パーソナライズタスクのさまざまな側面を厳格に評価するために設計された,包括的な実世界ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:19:20Z) - Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。
この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。
我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:46:53Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
大規模視覚言語モデル(LVLM)は、視覚的質問応答および推論タスクにおいて印象的な結果を得た。
既存の手法は、しばしば外部モデルやデータに依存し、制御不能で不安定なアライメント結果をもたらす。
本稿では,外部依存を伴わない視覚的・言語的モダリティアライメントを向上させる自己改善フレームワークSIMAを提案する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。