論文の概要: Personalization Toolkit: Training Free Personalization of Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2502.02452v2
- Date: Mon, 24 Mar 2025 12:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:29:47.410589
- Title: Personalization Toolkit: Training Free Personalization of Large Vision Language Models
- Title(参考訳): パーソナライズツールキット:大規模視覚言語モデルのフリーパーソナライズを訓練する
- Authors: Soroush Seifi, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi,
- Abstract要約: 本稿では,事前学習された視覚基盤モデルを活用することにより,LVLMのパーソナライズに対するトレーニング不要なアプローチを提案する。
モデルに依存しないビジョンツールキットは、広範囲なリトレーニングを必要とせず、フレキシブルで効率的なパーソナライズを可能にする。
- 参考スコア(独自算出の注目度): 11.026377387506216
- License:
- Abstract: Large Vision Language Models (LVLMs) have significant potential to provide personalized assistance by adapting to the unique needs and preferences of individual users. The personalization of LVLMs has emerged as a field that focuses on customizing models to recognize specific object instances and provide tailored responses. However, current methodologies depend on time-consuming test-time training for each user and object, which proves to be impractical. This paper introduces a novel, training-free approach to LVLM personalization by leveraging pre-trained vision foundation models to extract distinct features, retrieval-augmented generation (RAG) techniques to recognize instances in the visual input, and visual prompting methods. Our model-agnostic vision toolkit enables flexible and efficient personalization without the need for extensive retraining. We demonstrate state-of-the-art results, surpassing conventional training-based approaches, and set a new benchmark for LVLM personalization.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、個々のユーザのニーズや好みに適応することでパーソナライズされた支援を提供する大きな可能性を秘めている。
LVLMのパーソナライゼーションは、特定のオブジェクトインスタンスを認識し、適切な応答を提供するためにモデルをカスタマイズすることに焦点を当てた分野として登場した。
しかし、現在の手法は各ユーザとオブジェクトに対する時間を要するテストタイムトレーニングに依存しており、これは実用的でないことを証明している。
本稿では,事前学習した視覚基盤モデルを用いて特徴を抽出し,視覚入力のインスタンスを識別するRAG技術と視覚的プロンプト手法を用いて,LVLMのパーソナライズに対する新たな学習自由なアプローチを提案する。
モデルに依存しないビジョンツールキットは、広範囲なリトレーニングを必要とせず、フレキシブルで効率的なパーソナライズを可能にする。
従来のトレーニングベースアプローチを超越し,LVLMパーソナライズのための新しいベンチマークを作成した。
関連論文リスト
- Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。
この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。
我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:46:53Z) - PAD: Personalized Alignment of LLMs at Decoding-Time [10.347782385286582]
本稿では,LLM出力を推論フェーズにおいて多様なパーソナライズされた嗜好と整合させる新しいフレームワークを提案する。
パーソナライズド・アライメント・アライメント・アライメント・アライメント・アット・デコーディング・タイム(PAD)フレームワークは、テキスト生成プロセスをパーソナライズされた好みから切り離す。
PADは、既存のトレーニングベースのアライメント手法を、多様な嗜好と整合するという点で上回るだけでなく、トレーニング中に見つからない嗜好に対する顕著な一般化性も示している。
論文 参考訳(メタデータ) (2024-10-05T08:00:55Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - U-VAP: User-specified Visual Appearance Personalization via Decoupled Self Augmentation [18.841473623776153]
最先端のパーソナライズモデルでは、被写体全体をオーバーフィットさせる傾向があり、画素空間における視覚的特徴を乱すことはできない。
ユーザ固有の視覚属性を学習するために,ターゲット関連および非ターゲットサンプルを生成するために,新たなデカップリング自己拡張戦略を提案する。
SOTAパーソナライズ手法による様々な視覚特性の実験は、新規な文脈における対象の視覚的外観を模倣する手法の能力を示している。
論文 参考訳(メタデータ) (2024-03-29T15:20:34Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - When Large Language Models Meet Personalization: Perspectives of
Challenges and Opportunities [60.5609416496429]
大規模言語モデルの能力は劇的に改善されている。
このような大きな飛躍的なAI能力は、パーソナライゼーションの実施方法のパターンを変えるだろう。
大規模言語モデルを汎用インターフェースとして活用することにより、パーソナライズシステムはユーザ要求を計画にコンパイルすることができる。
論文 参考訳(メタデータ) (2023-07-31T02:48:56Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。