論文の概要: Jarvis: Towards Personalized AI Assistant via Personal KV-Cache Retrieval
- arxiv url: http://arxiv.org/abs/2510.22765v1
- Date: Sun, 26 Oct 2025 17:28:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.357441
- Title: Jarvis: Towards Personalized AI Assistant via Personal KV-Cache Retrieval
- Title(参考訳): Jarvis:パーソナルKVキャッシュ検索によるパーソナライズされたAIアシスタントを目指して
- Authors: Binxiao Xu, Junyu Feng, Ruichuan An, Yulin Luo, Shilin Yan, Hao Liang, Ming Lu, Wentao Zhang,
- Abstract要約: Jarvisは、パーソナルなKVキャッシュ検索を通じてパーソナライズされたAIアシスタントのための革新的なフレームワークである。
我々は、同じ画像パッチマイニングパイプラインで構築されたきめ細かいベンチマークを導入する。
Jarvis氏は、複数のデータセットにまたがる視覚的質問応答とテキストのみのタスクにおいて、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 29.617619398200777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of Vision-language models (VLMs) enables open-ended perception and reasoning. Recent works have started to investigate how to adapt general-purpose VLMs into personalized assistants. Even commercial models such as ChatGPT now support model personalization by incorporating user-specific information. However, existing methods either learn a set of concept tokens or train a VLM to utilize user-specific information. However, both pipelines struggle to generate accurate answers as personalized assistants. We introduce Jarvis, an innovative framework for a personalized AI assistant through personal KV-Cache retrieval, which stores user-specific information in the KV-Caches of both textual and visual tokens. The textual tokens are created by summarizing user information into metadata, while the visual tokens are produced by extracting distinct image patches from the user's images. When answering a question, Jarvis first retrieves related KV-Caches from personal storage and uses them to ensure accuracy in responses. We also introduce a fine-grained benchmark built with the same distinct image patch mining pipeline, emphasizing accurate question answering based on fine-grained user-specific information. Jarvis is capable of providing more accurate responses, particularly when they depend on specific local details. Jarvis achieves state-of-the-art results in both visual question answering and text-only tasks across multiple datasets, indicating a practical path toward personalized AI assistants. The code and dataset will be released.
- Abstract(参考訳): 視覚言語モデル(VLM)の急速な発展は、オープンな認識と推論を可能にする。
最近の研究は、汎用VLMをパーソナライズされたアシスタントに適応させる方法についての調査が始まっている。
ChatGPTのような商用モデルでさえ、ユーザ固有の情報を組み込んだモデルパーソナライズをサポートしている。
しかし、既存のメソッドは概念トークンの集合を学習するか、ユーザ固有の情報を利用するためにVLMを訓練する。
しかし、どちらのパイプラインもパーソナライズされたアシスタントとして正確な回答を生成するのに苦労している。
テキストトークンとビジュアルトークンの両方のKVキャッシュにユーザ固有の情報を格納するパーソナルKVキャッシュ検索を通じて、パーソナライズされたAIアシスタントのための革新的なフレームワークであるJarvisを紹介する。
テキストトークンは、ユーザ情報をメタデータに要約して作成し、視覚トークンは、ユーザの画像から異なる画像パッチを抽出して生成する。
質問に答えると、Jarvisはまずパーソナルストレージから関連するKVキャッシュを検索し、レスポンスの正確性を保証するためにそれらを使用する。
また、同一のイメージパッチマイニングパイプラインで構築されたきめ細かいベンチマークを導入し、きめ細かいユーザ固有の情報に基づいて正確な質問応答を強調した。
Jarvisは、特に特定のローカル詳細に依存する場合に、より正確なレスポンスを提供することができる。
Jarvis氏は、複数のデータセットにまたがる視覚的質問応答とテキストのみのタスクの両方において、最先端の結果を達成し、パーソナライズされたAIアシスタントへの実践的な道のりを示している。
コードとデータセットがリリースされる。
関連論文リスト
- MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2025-03-24T16:32:17Z) - Training-Free Personalization via Retrieval and Reasoning on Fingerprints [37.54948724318688]
視覚言語モデル(VLM)はマルチモーダル推論に大きな改善をもたらしたが、ユーザ固有の概念を理解するのに苦戦している。
本稿では, VLMの内部知識を活用して, パーソナライズのための検索と推論(R2P)を提案する。
R2Pは、様々な下流タスクにおける最先端のアプローチを一貫して上回る。
論文 参考訳(メタデータ) (2025-03-24T12:36:24Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - MC-LLaVA: Multi-Concept Personalized Vision-Language Model [51.645660375766575]
本稿では,最初のマルチコンセプトパーソナライズパラダイムであるMC-LLaVAを提案する。
MC-LLaVAはマルチコンセプト命令チューニング戦略を採用し、1つのトレーニングステップで複数の概念を効果的に統合する。
総合的質的および定量的実験により、MC-LLaVAは印象的なマルチコンセプトパーソナライズされた応答を達成できることが示された。
論文 参考訳(メタデータ) (2024-11-18T16:33:52Z) - NYC-Indoor-VPR: A Long-Term Indoor Visual Place Recognition Dataset with Semi-Automatic Annotation [7.037667953803237]
本稿では、ニューヨーク市内の13の異なる混雑したシーンから収集された36,000枚以上の画像のユニークで豊富なコレクションであるNYC-Indoor-VPRデータセットを紹介する。
VPRのための基礎的真理を確立するために,各画像の位置情報を計算する半自動アノテーション手法を提案する。
提案手法は,ビデオのペアを入力とし,一致した画像のペアと推定された相対位置を出力する。
論文 参考訳(メタデータ) (2024-03-31T00:20:53Z) - MMIU: Dataset for Visual Intent Understanding in Multimodal Assistants [4.322454918650574]
MMIU(MultiModal Intent Understanding)と呼ばれる新しいデータセットは、画像を見ながら人間のアノテータが提供する質問やそれに対応する意図を含む。
そして、このデータセットをマルチモーダルデジタルアシスタントの意図分類タスクに使用します。
論文 参考訳(メタデータ) (2021-10-13T00:57:05Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。