Fugu-MT 論文翻訳(概要): Personalization Toolkit: Training Free Personalization of Large Vision Language Models

論文の概要: Personalization Toolkit: Training Free Personalization of Large Vision Language Models

arxiv url: http://arxiv.org/abs/2502.02452v2
Date: Mon, 24 Mar 2025 12:34:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.472262
Title: Personalization Toolkit: Training Free Personalization of Large Vision Language Models
Title（参考訳）: パーソナライズツールキット:大規模視覚言語モデルのフリーパーソナライズを訓練する
Authors: Soroush Seifi, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi,
Abstract要約: 本稿では,事前学習された視覚基盤モデルを活用することにより,LVLMのパーソナライズに対するトレーニング不要なアプローチを提案する。モデルに依存しないビジョンツールキットは、広範囲なリトレーニングを必要とせず、フレキシブルで効率的なパーソナライズを可能にする。
参考スコア（独自算出の注目度）: 11.026377387506216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision Language Models (LVLMs) have significant potential to provide personalized assistance by adapting to the unique needs and preferences of individual users. The personalization of LVLMs has emerged as a field that focuses on customizing models to recognize specific object instances and provide tailored responses. However, current methodologies depend on time-consuming test-time training for each user and object, which proves to be impractical. This paper introduces a novel, training-free approach to LVLM personalization by leveraging pre-trained vision foundation models to extract distinct features, retrieval-augmented generation (RAG) techniques to recognize instances in the visual input, and visual prompting methods. Our model-agnostic vision toolkit enables flexible and efficient personalization without the need for extensive retraining. We demonstrate state-of-the-art results, surpassing conventional training-based approaches, and set a new benchmark for LVLM personalization.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は、個々のユーザのニーズや好みに適応することでパーソナライズされた支援を提供する大きな可能性を秘めている。 LVLMのパーソナライゼーションは、特定のオブジェクトインスタンスを認識し、適切な応答を提供するためにモデルをカスタマイズすることに焦点を当てた分野として登場した。しかし、現在の手法は各ユーザとオブジェクトに対する時間を要するテストタイムトレーニングに依存しており、これは実用的でないことを証明している。本稿では,事前学習した視覚基盤モデルを用いて特徴を抽出し,視覚入力のインスタンスを識別するRAG技術と視覚的プロンプト手法を用いて,LVLMのパーソナライズに対する新たな学習自由なアプローチを提案する。モデルに依存しないビジョンツールキットは、広範囲なリトレーニングを必要とせず、フレキシブルで効率的なパーソナライズを可能にする。従来のトレーニングベースアプローチを超越し,LVLMパーソナライズのための新しいベンチマークを作成した。

関連論文リスト

Personalized Representation from Personalized Generation [36.848215621708235]
我々は、パーソナライズされた合成データを用いてパーソナライズされた表現を学習するという課題を定式化する。提案手法は,多様な下流タスクに対するパーソナライズされた表現学習を改善する。
論文参考訳（メタデータ） (2024-12-20T18:59:03Z)
Personalized Visual Instruction Tuning [30.677058613937067]
MLLM(Multimodal large language model)は、一般的な会話を行うが、特定の個人をターゲットにした対話を行うことができない。この欠陥は、モバイルデバイスのカスタマイズされた視覚アシスタントなど、パーソナライズされた設定におけるMLLMの適用を妨げる。我々は、MLLMが画像内のターゲット個人を識別できるように設計された新しいデータキュレーションおよびトレーニングフレームワークである、パーソナライズド・ビジュアル・インストラクション・チューニング(PVIT)を紹介する。
論文参考訳（メタデータ） (2024-10-09T17:46:53Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文参考訳（メタデータ） (2024-07-08T17:59:02Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
U-VAP: User-specified Visual Appearance Personalization via Decoupled Self Augmentation [18.841473623776153]
最先端のパーソナライズモデルでは、被写体全体をオーバーフィットさせる傾向があり、画素空間における視覚的特徴を乱すことはできない。ユーザ固有の視覚属性を学習するために,ターゲット関連および非ターゲットサンプルを生成するために,新たなデカップリング自己拡張戦略を提案する。 SOTAパーソナライズ手法による様々な視覚特性の実験は、新規な文脈における対象の視覚的外観を模倣する手法の能力を示している。
論文参考訳（メタデータ） (2024-03-29T15:20:34Z)
Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文参考訳（メタデータ） (2024-03-15T20:21:31Z)
One-Shot Open Affordance Learning with Foundation Models [54.15857111929812]
私たちは、モデルがベースオブジェクトカテゴリ毎に1つの例でトレーニングされる、ワンショットのオープンアフォーダンスラーニング(OOAL)を紹介します。本稿では,視覚的特徴と手頃なテキスト埋め込みとの整合性を高める,シンプルで効果的な設計の視覚言語フレームワークを提案する。 2つのアベイランスセグメンテーションのベンチマーク実験により、提案手法はトレーニングデータの1%未満で最先端のモデルより優れていることが示された。
論文参考訳（メタデータ） (2023-11-29T16:23:06Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
Forging Multiple Training Objectives for Pre-trained Language Models via Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文参考訳（メタデータ） (2022-10-19T04:38:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。