論文の概要: Role-SynthCLIP: A Role Play Driven Diverse Synthetic Data Approach
- arxiv url: http://arxiv.org/abs/2511.05057v1
- Date: Fri, 07 Nov 2025 08:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.70905
- Title: Role-SynthCLIP: A Role Play Driven Diverse Synthetic Data Approach
- Title(参考訳): Role-SynthCLIP:ロールプレイ駆動多元合成データアプローチ
- Authors: Yuanxiang Huangfu, Chaochao Wang, Weilei Wang,
- Abstract要約: Role- SynthCLIPは、マルチパースペクティブなロールプレイングプロンプトを活用する新しいデータ合成フレームワークである。
セマンティックな多様性と、合成ペアの微細な画像テキストアライメントを高める。
たった100万のRole-SynthCLIPペアでトレーニングされたCLIP-B/16モデルは、MS COCO検証セットで64.1%のリコール@1を達成する。
- 参考スコア(独自算出の注目度): 0.7446442872036001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of Contrastive Language-Image Pre-training (CLIP) models critically depends on the semantic diversity and quality of their training data. However, while existing synthetic data generation methods primarily focus on increasing data volume, such emphasis often leads to limited semantic diversity and redundant or shallow captions. To address this limitation, we propose Role-SynthCLIP, a novel data synthesis framework that leverages multi-perspective role-playing prompts (e.g., a compositional analyst, an interpreter of image context) to guide Multimodal Large Language Models (MLLMs) in generating semantically diverse captions from distinct viewpoints. This mechanism enhances the semantic diversity and fine-grained image-text alignment of synthetic pairs, thereby improving caption expressiveness and accuracy while keeping the total number of image-text pairs unchanged. Experimental results demonstrate the effectiveness and efficiency of our method. A CLIP-B/16 model trained on only 1 million Role-SynthCLIP pairs achieves a Recall@1 of 64.1% on the MS COCO validation set, surpassing the best existing synthetic data baseline (trained on 5M pairs) by 2.8 percentage points. The code and trained models are released at https://github.com/huangfu170/Role-SynthCLIP.
- Abstract(参考訳): Contrastive Language-Image Pre-Turning(CLIP)モデルの有効性は、トレーニングデータの意味的多様性と品質に大きく依存する。
しかし、既存の合成データ生成手法は主にデータ量の増加に重点を置いているが、このような強調は意味的多様性の制限と冗長なキャプションや浅いキャプションにつながることが多い。
この制限に対処するために,複数パースペクティブなロールプレイングプロンプト(例えば,構成アナリスト,画像コンテキストのインタプリタ)を活用する新しいデータ合成フレームワークであるRole-SynthCLIPを提案する。
この機構は、合成ペアのセマンティック多様性と微粒な画像テキストアライメントを強化し、画像テキストペアの総数を一定に保ちつつ、キャプション表現性と精度を向上させる。
実験の結果,本手法の有効性と有効性を示した。
たった100万個のRole-SynthCLIPペアでトレーニングされたCLIP-B/16モデルは、MS COCO検証セット上で64.1%のリコール@1を達成する。
コードとトレーニングされたモデルはhttps://github.com/huangfu170/Role-SynthCLIPで公開されている。
関連論文リスト
- RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
Contrastive Language-Image Pre-Training (CLIP)は、様々なベンチマークで有望なパフォーマンスを示す。
マルチモーダルなインターリーブド文書のかなりの量は、コントラッシブな視覚言語表現学習に使われていない。
高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。
そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。
リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを構築し,15M,30M,100Mの3つのスケールで利用可能である。
論文 参考訳(メタデータ) (2025-02-18T03:58:38Z) - Multimodal Preference Data Synthetic Alignment with Reward Model [23.978820500281213]
本稿では,DPOトレーニングによる効果的なマルチモーダルアライメントのための人選好のプロキシとして,報酬モデルを用いて合成データを生成する新しいフレームワークを提案する。
実験結果から、生成モデルや報酬モデルのような選択された合成データの統合は、人手による注釈付きデータへの依存を効果的に軽減できることが示された。
論文 参考訳(メタデータ) (2024-12-23T09:29:40Z) - Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。