論文の概要: Concept-as-Tree: Synthetic Data is All You Need for VLM Personalization
- arxiv url: http://arxiv.org/abs/2503.12999v2
- Date: Sun, 23 Mar 2025 06:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:32:03.586825
- Title: Concept-as-Tree: Synthetic Data is All You Need for VLM Personalization
- Title(参考訳): コンセプト・アズ・トレー:VLMのパーソナライゼーションに必要な合成データ
- Authors: Ruichuan An, Kai Zeng, Ming Lu, Sihan Yang, Renrui Zhang, Huitong Ji, Qizhe Zhang, Yulin Luo, Hao Liang, Wentao Zhang,
- Abstract要約: コンセプト・アズ・トレー(CaT)は木構造としての概念を表し、正と負のサンプルのデータ生成を可能にする。
十分に設計されたデータフィルタリング戦略により、当社のCaTフレームワークは、生成されたデータの品質を保証できます。
この研究は、VLMパーソナライズのための制御可能な初めての合成データパイプラインである。
- 参考スコア(独自算出の注目度): 34.61646655931679
- License:
- Abstract: Vision-Language Models (VLMs) have demonstrated exceptional performance in various multi-modal tasks. Recently, there has been an increasing interest in improving the personalization capabilities of VLMs. To better integrate user-provided concepts into VLMs, many methods use positive and negative samples to fine-tune these models. However, the scarcity of user-provided positive samples and the low quality of retrieved negative samples pose challenges for fine-tuning. To reveal the relationship between sample and model performance, we systematically investigate the impact of positive and negative samples (easy and hard) and their diversity on VLM personalization tasks. Based on the detailed analysis, we introduce Concept-as-Tree (CaT), which represents a concept as a tree structure, thereby enabling the data generation of positive and negative samples with varying difficulty and diversity for VLM personalization. With a well-designed data filtering strategy, our CaT framework can ensure the quality of generated data, constituting a powerful pipeline. We perform thorough experiments with various VLM personalization baselines to assess the effectiveness of the pipeline, alleviating the lack of positive samples and the low quality of negative samples. Our results demonstrate that CaT equipped with the proposed data filter significantly enhances the personalization capabilities of VLMs across the MyVLM, Yo'LLaVA, and MC-LLaVA datasets. To our knowledge, this work is the first controllable synthetic data pipeline for VLM personalization. The code is released at $\href{https://github.com/zengkaiya/CaT}{\text{https://github.com/zengkaiya/CaT}}$.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて例外的な性能を示す。
近年, VLMのパーソナライズ能力向上への関心が高まっている。
ユーザが提供する概念をよりよく VLM に統合するために、多くの手法は正と負のサンプルを使ってこれらのモデルを微調整する。
しかし, ユーザが提示する正のサンプルの不足や, 回収された負のサンプルの品質の低さは, 微調整の課題となっている。
サンプルとモデル性能の関係を明らかにするため,VLMのパーソナライズ作業における正と負のサンプル(易さと硬さ)の影響とその多様性を系統的に検討した。
そこで本研究では,木構造としての概念を表現したConcept-as-Tree (CaT)を導入し,VLMパーソナライゼーションの難易度と多様性の異なる正および負のサンプルのデータ生成を可能にする。
十分に設計されたデータフィルタリング戦略により、当社のCaTフレームワークは、生成されたデータの品質を保証し、強力なパイプラインを構成することができます。
各種VLMパーソナライゼーションベースラインを用いた徹底的な実験を行い、パイプラインの有効性を評価し、正のサンプルの欠如と負のサンプルの品質の低下を軽減した。
この結果から,提案したデータフィルタを備えたCaTは,MyVLM, Yo'LLaVA, MC-LLaVAデータセット間のVLMのパーソナライズ能力を大幅に向上させることが示された。
我々の知る限り、この研究はVLMパーソナライズのための制御可能な初めての合成データパイプラインである。
コードは$\href{https://github.com/zengkaiya/CaT}{\text{https://github.com/zengkaiya/CaT}}$でリリースされる。
関連論文リスト
- RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception [20.01853641155509]
自然言語命令に基づくアプリケーション固有の視覚的グラウンドニングのための視覚言語モデル(VLM)は、学習可能な自律システムにおいて最も一般的なアプローチの1つである。
本稿では, 強化学習(RL)エージェントと統合することにより, VLMファインチューニングを改善するための新しい一般化可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-31T04:30:42Z) - Generating Negative Samples for Multi-Modal Recommendation [16.406112111295055]
マルチモーダルリコメンデータシステム(MMRS)は、様々なモダリティの情報を活用してレコメンデーション品質を高める能力によって注目されている。
既存のネガティブサンプリング技術は、しばしばマルチモーダルデータを効果的に活用するのに苦労し、最適以下のパフォーマンスをもたらす。
我々は,マルチモーダルな大言語モデル(MLLM)を用いて,バランスの取れた負のサンプルを生成する新しいフレームワークNegGenを提案する。
論文 参考訳(メタデータ) (2025-01-25T11:45:49Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。
高品質なクロスモダリティトレーニングサンプルを生成する新しいフレームワークであるtextbfAuto textbfCherry-textbfPicker (ACP) を提案する。
論文 参考訳(メタデータ) (2024-06-28T17:53:18Z) - SCONE: A Novel Stochastic Sampling to Generate Contrastive Views and Hard Negative Samples for Recommendation [28.886714896469737]
グラフベースのコラボレーティブフィルタリング(CF)は、レコメンダシステムにおいて有望なアプローチとして登場した。
その成果にもかかわらず、グラフベースのCFモデルは、データの分散性と負のサンプリングによる課題に直面している。
本稿では,これらの課題を克服するために,<i>Contrastive view and ii) hard NEgative sample (SCONE)を提案する。
論文 参考訳(メタデータ) (2024-05-01T02:27:59Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。