論文の概要: CtrlSynth: Controllable Image Text Synthesis for Data-Efficient Multimodal Learning
- arxiv url: http://arxiv.org/abs/2410.11963v1
- Date: Tue, 15 Oct 2024 18:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:02.217933
- Title: CtrlSynth: Controllable Image Text Synthesis for Data-Efficient Multimodal Learning
- Title(参考訳): CtrlSynth:データ効率の良いマルチモーダル学習のための制御可能な画像テキスト合成
- Authors: Qingqing Cao, Mahyar Najibi, Sachin Mehta,
- Abstract要約: 我々は,データ効率とロバスト学習のためのエンファンコントロール可能な画像テキスト合成パイプラインであるCtrl Synthを設計する。
Ctrl Synthは、ユーザがカスタマイズされたコントロールポリシーを定義することで、きめ細かい方法でデータ合成を制御することができる。
Ctrl Synthは,CLIPモデルのゼロショット分類,画像テキスト検索,合成推論性能を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 23.63386159778117
- License:
- Abstract: Pretraining robust vision or multimodal foundation models (e.g., CLIP) relies on large-scale datasets that may be noisy, potentially misaligned, and have long-tail distributions. Previous works have shown promising results in augmenting datasets by generating synthetic samples. However, they only support domain-specific ad hoc use cases (e.g., either image or text only, but not both), and are limited in data diversity due to a lack of fine-grained control over the synthesis process. In this paper, we design a \emph{controllable} image-text synthesis pipeline, CtrlSynth, for data-efficient and robust multimodal learning. The key idea is to decompose the visual semantics of an image into basic elements, apply user-specified control policies (e.g., remove, add, or replace operations), and recompose them to synthesize images or texts. The decompose and recompose feature in CtrlSynth allows users to control data synthesis in a fine-grained manner by defining customized control policies to manipulate the basic elements. CtrlSynth leverages the capabilities of pretrained foundation models such as large language models or diffusion models to reason and recompose basic elements such that synthetic samples are natural and composed in diverse ways. CtrlSynth is a closed-loop, training-free, and modular framework, making it easy to support different pretrained models. With extensive experiments on 31 datasets spanning different vision and vision-language tasks, we show that CtrlSynth substantially improves zero-shot classification, image-text retrieval, and compositional reasoning performance of CLIP models.
- Abstract(参考訳): 堅牢なビジョンやマルチモーダル基盤モデル(例えばCLIP)の事前トレーニングは、ノイズがあり、不整合があり、長いテール分布を持つ可能性のある大規模なデータセットに依存している。
従来の研究は、合成サンプルを生成することによってデータセットを増強する有望な結果を示している。
しかし、これらはドメイン固有のアドホックなユースケース(例:画像またはテキストのみだが両方ではない)しかサポートせず、合成プロセスのきめ細かい制御が欠如しているため、データの多様性が制限されている。
本稿では,データ効率と頑健なマルチモーダル学習のための画像テキスト合成パイプラインであるCtrlSynthを設計する。
キーとなる考え方は、画像の視覚的意味論を基本的な要素に分解し、ユーザーが指定した制御ポリシー(例えば、操作の削除、追加、置換)を適用し、画像やテキストを合成するためにそれらを再分解することである。
CtrlSynthの分解と分解機能により、ユーザーは基本要素を操作するためにカスタマイズされた制御ポリシーを定義することで、きめ細かい方法でデータ合成を制御できる。
CtrlSynthは、大規模な言語モデルや拡散モデルのような事前訓練された基礎モデルの能力を利用して、合成サンプルが自然で多様な方法で構成されるような基本的な要素を推論および再構成する。
CtrlSynthはクローズドループ、トレーニング不要、モジュール型のフレームワークで、さまざまな事前訓練されたモデルを簡単にサポートできる。
CtrlSynthは、視覚と視覚の異なるタスクにまたがる31のデータセットに関する広範な実験により、CLIPモデルのゼロショット分類、画像テキスト検索、合成推論性能を大幅に改善することを示した。
関連論文リスト
- Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? [57.42016037768947]
完全合成テキストイメージペアに基づいてトレーニングされたCLIPモデルであるSynthCLIPを提案する。
我々は人間の介入なしに画像と対応するキャプションの合成データセットを大規模に生成する。
論文 参考訳(メタデータ) (2024-02-02T18:59:58Z) - ContraNeRF: Generalizable Neural Radiance Fields for Synthetic-to-real
Novel View Synthesis via Contrastive Learning [102.46382882098847]
まず,合成から現実への新規な視点合成における合成データの影響について検討した。
本稿では,幾何制約を伴う多視点一貫した特徴を学習するために,幾何対応のコントラスト学習を導入することを提案する。
提案手法は,PSNR,SSIM,LPIPSの点で,既存の一般化可能な新規ビュー合成手法よりも高い画質で精細な画像を描画することができる。
論文 参考訳(メタデータ) (2023-03-20T12:06:14Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text
Recognition Models [9.934446907923725]
そこで本研究では,テキスト画像合成に使用される技術を分析し,一つのアルゴリズムで有効なものを統合することによって,新しい合成テキスト画像生成装置であるSynthTIGERを提案する。
我々の実験では、SynthTIGERは合成データセットの組合せよりも優れたSTR性能を実現する。
論文 参考訳(メタデータ) (2021-07-20T08:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。