論文の概要: Small-Large Collaboration: Training-efficient Concept Personalization for Large VLM using a Meta Personalized Small VLM
- arxiv url: http://arxiv.org/abs/2508.07260v1
- Date: Sun, 10 Aug 2025 09:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.780562
- Title: Small-Large Collaboration: Training-efficient Concept Personalization for Large VLM using a Meta Personalized Small VLM
- Title(参考訳): 小人数共同作業:メタパーソナライズされた小型VLMを用いた大規模VLMのための学習効率の高い概念パーソナライズ
- Authors: Sihan Yang, Huitong Ji, Shaolin Lu, Jiayi Chen, Binxiao Xu, Ming Lu, Yuanxing Zhang, Wenhui Dong, Wentao Zhang,
- Abstract要約: 大規模VLMパーソナライゼーションのためのSLC(Small-Large Collaboration)という新しい協調フレームワークを提案する。
我々は、小型VLMの幻覚を防止し、テストタイムリフレクション戦略を開発する。
私たちの知る限りでは、これはオープンソースとクローズドソースの大規模VLMの両方をサポートする最初のトレーニング効率の高いフレームワークです。
- 参考スコア(独自算出の注目度): 27.081774497698667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalizing Vision-Language Models (VLMs) to transform them into daily assistants has emerged as a trending research direction. However, leading companies like OpenAI continue to increase model size and develop complex designs such as the chain of thought (CoT). While large VLMs are proficient in complex multi-modal understanding, their high training costs and limited access via paid APIs restrict direct personalization. Conversely, small VLMs are easily personalized and freely available, but they lack sufficient reasoning capabilities. Inspired by this, we propose a novel collaborative framework named Small-Large Collaboration (SLC) for large VLM personalization, where the small VLM is responsible for generating personalized information, while the large model integrates this personalized information to deliver accurate responses. To effectively incorporate personalized information, we develop a test-time reflection strategy, preventing the potential hallucination of the small VLM. Since SLC only needs to train a meta personalized small VLM for the large VLMs, the overall process is training-efficient. To the best of our knowledge, this is the first training-efficient framework that supports both open-source and closed-source large VLMs, enabling broader real-world personalized applications. We conduct thorough experiments across various benchmarks and large VLMs to demonstrate the effectiveness of the proposed SLC framework. The code will be released at https://github.com/Hhankyangg/SLC.
- Abstract(参考訳): 視覚言語モデル(VLM)を日々のアシスタントに転換するパーソナライズが研究の方向として注目されている。
しかし、OpenAIのような主要な企業は、モデルのサイズを拡大し続け、思考の連鎖(CoT)のような複雑な設計を開発し続けている。
大規模なVLMは複雑なマルチモーダル理解に長けているが、トレーニングコストが高く、有料APIによるアクセスが制限されているため、直接パーソナライゼーションは制限される。
逆に、小さなVLMはパーソナライズされ、自由に利用できるが、十分な推論能力がない。
そこで本研究では,大規模VLMパーソナライズのためのSLC(Small-Large Collaboration)という新しい協調フレームワークを提案する。
パーソナライズされた情報を効果的に組み込むため、我々は、小さなVLMの幻覚を防ぐテストタイムリフレクション戦略を開発した。
SLCは、大規模なVLMのためにメタパーソナライズされた小さなVLMをトレーニングする必要があるため、全体的なプロセスはトレーニング効率が良い。
私たちの知る限りでは、これはオープンソースとクローズドソースの両方の大規模なVLMをサポートし、より広範な現実世界のパーソナライズされたアプリケーションを可能にする、最初のトレーニング効率の高いフレームワークです。
提案するSLCフレームワークの有効性を実証するため,各種ベンチマークおよび大規模VLMの徹底的な実験を行った。
コードはhttps://github.com/Hhankyangg/SLCでリリースされる。
関連論文リスト
- GenRecal: Generation after Recalibration from Large to Small Vision-Language Models [63.27511432647797]
視覚言語モデル(VLM)は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
視覚言語モデル(VLM)の最近の進歩は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
論文 参考訳(メタデータ) (2025-06-18T17:59:49Z) - VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making [45.02997774119763]
視覚言語モデル(VLM)は、大規模言語モデル(LLM)をマルチモーダルデータに拡張する。
我々の研究は、オフラインからオンラインへの強化学習(RL)の観点から、これらの課題にアプローチする。
論文 参考訳(メタデータ) (2025-05-06T04:51:57Z) - RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models [53.304699445700926]
MLLMのパーソナライズのための検索強化パーソナライズフレームワークについて紹介する。
一般的なMLLMから始まり、3つのステップでパーソナライズされたアシスタントにします。
大規模データセットを事前トレーニングすることにより、RAP-MLLMは、追加の微調整なしで無限の視覚概念に一般化することができる。
論文 参考訳(メタデータ) (2024-10-17T09:10:26Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Are Bigger Encoders Always Better in Vision Large Models? [21.797332686137203]
マルチモーダルな大言語モデル (MLLM) は、現実世界の応用において大きな可能性を示している。
現在の主流パラダイム下での視覚言語モデル(VLM)のスケーリング傾向は、広く研究されていない。
我々は,異なるエンコーダサイズと大言語モデル(LLM)サイズを用いて,MLLMの事前学習段階の実験を行う。
論文 参考訳(メタデータ) (2024-08-01T15:05:42Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning [12.628697648945298]
強化学習(Reinforcement Learning, RL)は、報酬関数を手動で指定するか、あるいは大量のフィードバックから報酬モデルを学ぶことを必要とする。
本稿では,事前学習された視覚言語モデル (VLM) をゼロショット報酬モデル (RM) として用いて,自然言語によるタスクの特定を行う。
論文 参考訳(メタデータ) (2023-10-19T17:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。