論文の概要: TAMEing Long Contexts in Personalization: Towards Training-Free and State-Aware MLLM Personalized Assistant
- arxiv url: http://arxiv.org/abs/2512.21616v1
- Date: Thu, 25 Dec 2025 10:23:56 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:02:52.103844
- Title: TAMEing Long Contexts in Personalization: Towards Training-Free and State-Aware MLLM Personalized Assistant
- Title(参考訳): パーソナライズにおける長期的コンテキストの育成--MLLMパーソナライズ・アシスタントの育成に向けて
- Authors: Rongpei Hong, Jian Lang, Ting Zhong, Yong Wang, Fan Zhou,
- Abstract要約: 長期MLLMパーソナライズ評価ベンチマークを提案する。
新しいフレームワークTAMEは、各パーソナライズされた概念の時間的および永続的なバリエーションを管理するために、MLLMにダブルメモリを付与する。
- 参考スコア(独自算出の注目度): 32.497044980186544
- License:
- Abstract: Multimodal Large Language Model (MLLM) Personalization is a critical research problem that facilitates personalized dialogues with MLLMs targeting specific entities (known as personalized concepts). However, existing methods and benchmarks focus on the simple, context-agnostic visual identification and textual replacement of the personalized concept (e.g., "A yellow puppy" -> "Your puppy Mochi"), overlooking the ability to support long-context conversations. An ideal personalized MLLM assistant is capable of engaging in long-context dialogues with humans and continually improving its experience quality by learning from past dialogue histories. To bridge this gap, we propose LCMP, the first Long-Context MLLM Personalization evaluation benchmark. LCMP assesses the capability of MLLMs in perceiving variations of personalized concepts and generating contextually appropriate personalized responses that reflect these variations. As a strong baseline for LCMP, we introduce a novel training-free and state-aware framework TAME. TAME endows MLLMs with double memories to manage the temporal and persistent variations of each personalized concept in a differentiated manner. In addition, TAME incorporates a new training-free Retrieve-then-Align Augmented Generation (RA2G) paradigm. RA2G introduces an alignment step to extract the contextually fitted information from the multi-memory retrieved knowledge to the current questions, enabling better interactions for complex real-world user queries. Experiments on LCMP demonstrate that TAME achieves the best performance, showcasing remarkable and evolving interaction experiences in long-context scenarios.
- Abstract(参考訳): MLLMパーソナライズ(Multimodal Large Language Model, MLLMパーソナライズ)は、特定のエンティティ(パーソナライズされた概念)をターゲットにしたMLLMとパーソナライズされた対話を容易にする重要な研究課題である。
しかし,既存の手法やベンチマークでは,パーソナライズされた概念(例:「黄色い子犬」→「あなたの子犬餅」)のシンプルでコンテキストに依存しない視覚的識別とテキスト置換に焦点が当てられている。
理想的なパーソナライズされたMLLMアシスタントは、人間と長時間の対話を行うことができ、過去の対話履歴から学習することで、その体験品質を継続的に向上させることができる。
このギャップを埋めるために,最初のLong-Context MLLMパーソナライゼーション評価ベンチマークであるLCMPを提案する。
LCMPは、パーソナライズされた概念のバリエーションを知覚し、これらのバリエーションを反映した適切なパーソナライズされた応答を生成するMLLMの能力を評価する。
LCMPの強力なベースラインとして,新しいトレーニングフリーでステートアウェアなフレームワークであるTAMEを紹介した。
TAMEはMLLMに二重記憶を付与し、各パーソナライズされた概念の時間的および永続的な変動を異なる方法で管理する。
さらに、TAMEは新たなトレーニングフリーなRetrieve-then-Align Augmented Generation(RA2G)パラダイムを取り入れている。
RA2Gは、複数のメモリから取得した知識から、コンテキストに適合した情報を現在の質問に抽出するアライメントステップを導入し、複雑な現実世界のユーザクエリに対するより良いインタラクションを可能にする。
LCMPの実験では、TAMEが最高のパフォーマンスを達成し、長期のコンテキストシナリオにおける顕著で進化した相互作用体験を示している。
関連論文リスト
- A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models [53.304699445700926]
MLLMのパーソナライズのための検索強化パーソナライズフレームワークについて紹介する。
一般的なMLLMから始まり、3つのステップでパーソナライズされたアシスタントにします。
大規模データセットを事前トレーニングすることにより、RAP-MLLMは、追加の微調整なしで無限の視覚概念に一般化することができる。
論文 参考訳(メタデータ) (2024-10-17T09:10:26Z) - Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。
この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。
我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:46:53Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。