論文の概要: Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data
- arxiv url: http://arxiv.org/abs/2503.01167v1
- Date: Mon, 03 Mar 2025 04:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:36.101700
- Title: Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data
- Title(参考訳): マルチモーダル合成データによる視覚言語構成理解の強化
- Authors: Haoxin Li, Boyang Li,
- Abstract要約: 視覚言語モデル(VLM)は、微妙なバリエーションを持つトレーニングサンプルへの露出が限られているため、構成的理解に苦慮している。
本稿では,画像特徴注入をテキストから画像への生成モデルに組み込んだSVD-GT(Subtle Variation Data Generation and Training)を提案する。
- 参考スコア(独自算出の注目度): 7.879286384561264
- License:
- Abstract: Despite impressive advancements in various multimodal tasks, vision-language models (VLMs) still struggle with compositional understanding due to limited exposure to training samples that contain subtle variations within paired examples. With advances in multimodal generative models, a natural solution is to generate synthetic samples with subtle variations for training VLMs. However, generating and training on synthetic samples with subtle variations presents two challenges: difficulty in accurately creating precise variations and inconsistency in cross-modal alignment quality. To address these challenges, we propose SVD-GT (Subtle Variation Data Generation and Training), which integrates image feature injection into a text-to-image generative model to enhance the quality of synthetic variations and employs an adaptive margin loss to differentiate samples using adaptive margins, which help filter out potentially incorrect synthetic samples and focus the learning on informative hard samples. Evaluations on four compositional understanding benchmarks demonstrate that SVD-GT significantly improves the compositionality of VLMs, boosting the average accuracy of CLIP by over 8% across all benchmarks and outperforming state-of-the-art methods by 2% on three benchmarks.
- Abstract(参考訳): 様々なマルチモーダルタスクの顕著な進歩にもかかわらず、視覚言語モデル(VLM)は、ペア内の微妙な変化を含むトレーニングサンプルに限定された露出のため、構成的理解に苦慮している。
マルチモーダル生成モデルの進歩により、自然な解法は、VLMを訓練するための微妙なバリエーションを持つ合成サンプルを生成することである。
しかし、微妙な変化を伴う合成試料の生成と訓練は、正確な変分を正確に生成することの難しさと、モーダルなアライメント品質の不整合の2つの課題を呈している。
これらの課題に対処するため, SVD-GT (Subtle Variation Data Generation and Training) を提案する。画像特徴注入をテキスト・ツー・イメージ生成モデルに統合し, 合成変化の質を高めるとともに, 適応的マージン損失を利用して, 適応的マージンを用いてサンプルを識別し, 潜在的に不正確な合成サンプルをフィルタリングし, 情報的ハードサンプルに学習を集中させる。
4つの構成理解ベンチマークで評価した結果,SVD-GT は VLM の構成性を大幅に向上し,CLIP の平均精度は全ベンチマークで8%以上向上し,3つのベンチマークでは2%以上向上した。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - EEG-SCMM: Soft Contrastive Masked Modeling for Cross-Corpus EEG-Based Emotion Recognition [0.862468061241377]
本稿では,感情認識のためのソフトコントラスト・マスケッド・モデリング(SCMM)フレームワークを提案する。
SCMMはソフトコントラスト学習と新しいハイブリッドマスキング戦略を統合し、人間の感情に固有の「短期連続性」特性を効果的にマイニングする。
実験の結果、SCMMは最先端(SOTA)の性能を達成し、平均4.26%の精度で2番目に良い方法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-17T12:35:13Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。
FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2024-07-02T08:38:31Z) - Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。
高品質なクロスモダリティトレーニングサンプルを生成する新しいフレームワークであるtextbfAuto textbfCherry-textbfPicker (ACP) を提案する。
論文 参考訳(メタデータ) (2024-06-28T17:53:18Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Defect Transfer GAN: Diverse Defect Synthesis for Data Augmentation [4.559353193715442]
Defect Transfer GAN(DT-GAN)は、さまざまなバックグラウンド製品から独立した欠陥タイプを表現することを学ぶ。
MVTec ADと2つの追加データセットに関する実証研究は、DT-GANが最先端の画像合成法より優れていることを示した。
その結果, DT-GANによる拡張データにより, 少数のサンプル状態においても一貫した利得が得られることがわかった。
論文 参考訳(メタデータ) (2023-02-16T15:35:21Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。