論文の概要: Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data
- arxiv url: http://arxiv.org/abs/2503.01167v2
- Date: Sat, 29 Mar 2025 09:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:29:20.912001
- Title: Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data
- Title(参考訳): マルチモーダル合成データによる視覚言語構成理解の強化
- Authors: Haoxin Li, Boyang Li,
- Abstract要約: ビジョンランゲージモデル(Vision-Language Model)は、適切な構成的理解を備えたビジョンランゲージモデルである。
合成学習のための 訓練画像の合成には 3つの課題があります。
本稿では,画像特徴注入を高速テキスト・画像生成モデルに統合したロバスト構成学習を支援するための合成摂動法を提案する。
- 参考スコア(独自算出の注目度): 7.879286384561264
- License:
- Abstract: Paired image-text data with subtle variations in-between (e.g., people holding surfboards vs. people holding shovels) hold the promise of producing Vision-Language Models with proper compositional understanding. Synthesizing such training data from generative models is a highly coveted prize due to the reduced cost of data collection. However, synthesizing training images for compositional learning presents three challenges: (1) efficiency in generating large quantities of images, (2) text alignment between the generated image and the caption in the exact place of the subtle change, and (3) image fidelity in ensuring sufficient similarity with the original real images in all other places. We propose SPARCL (Synthetic Perturbations for Advancing Robust Compositional Learning), which integrates image feature injection into a fast text-to-image generative model, followed by an image style transfer step, to meet the three challenges. Further, to cope with any residual issues of text alignment, we propose an adaptive margin loss to filter out potentially incorrect synthetic samples and focus the learning on informative hard samples. Evaluation on four compositional understanding benchmarks demonstrates that SPARCL significantly improves the compositionality of CLIP, boosting the average accuracy of the CLIP base model by over 8% across all benchmarks and outperforming state-of-the-art methods by 2% on three benchmarks.
- Abstract(参考訳): 例えば、サーフボードを持っている人とシャベルを持っている人)間の微妙なバリエーションを持つペア画像テキストデータは、適切な構成的理解を持つビジョン・ランゲージ・モデルを作成することを約束する。
このようなトレーニングデータを生成モデルから合成することは、データ収集のコストが削減されたため、非常に有望な賞である。
しかし、合成学習のための訓練画像の合成には、(1)大量の画像を生成する効率、(2)微妙な変化の正確な場所で生成した画像とキャプションのテキストアライメント、(3)他のすべての場所で元の実画像と十分な類似性を確保するための画像忠実さの3つの課題がある。
SPARCL (Synthetic Perturbations for Advancing Robust Compositional Learning) は,画像特徴注入を高速テキスト・画像生成モデルに統合し,次に画像スタイルの変換ステップを付加し,これら3つの課題を満たす。
さらに, テキストアライメントの残余問題に対処するために, 不正確な合成サンプルをフィルタリングし, 難読なハードサンプルに焦点を合わせる適応的マージン損失を提案する。
4つの構成的理解ベンチマークの評価により,SPARCLはCLIPの合成性を大幅に向上し,CLIPベースモデルの平均精度を8%以上向上し,3つのベンチマークで最先端の手法を2%以上上回った。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - EEG-SCMM: Soft Contrastive Masked Modeling for Cross-Corpus EEG-Based Emotion Recognition [0.862468061241377]
本稿では,感情認識のためのソフトコントラスト・マスケッド・モデリング(SCMM)フレームワークを提案する。
SCMMはソフトコントラスト学習と新しいハイブリッドマスキング戦略を統合し、人間の感情に固有の「短期連続性」特性を効果的にマイニングする。
実験の結果、SCMMは最先端(SOTA)の性能を達成し、平均4.26%の精度で2番目に良い方法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-17T12:35:13Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。
FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2024-07-02T08:38:31Z) - Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。
高品質なクロスモダリティトレーニングサンプルを生成する新しいフレームワークであるtextbfAuto textbfCherry-textbfPicker (ACP) を提案する。
論文 参考訳(メタデータ) (2024-06-28T17:53:18Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Defect Transfer GAN: Diverse Defect Synthesis for Data Augmentation [4.559353193715442]
Defect Transfer GAN(DT-GAN)は、さまざまなバックグラウンド製品から独立した欠陥タイプを表現することを学ぶ。
MVTec ADと2つの追加データセットに関する実証研究は、DT-GANが最先端の画像合成法より優れていることを示した。
その結果, DT-GANによる拡張データにより, 少数のサンプル状態においても一貫した利得が得られることがわかった。
論文 参考訳(メタデータ) (2023-02-16T15:35:21Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。