論文の概要: Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data
- arxiv url: http://arxiv.org/abs/2503.01167v2
- Date: Sat, 29 Mar 2025 09:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 15:20:32.216636
- Title: Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data
- Title(参考訳): マルチモーダル合成データによる視覚言語構成理解の強化
- Authors: Haoxin Li, Boyang Li,
- Abstract要約: ビジョンランゲージモデル(Vision-Language Model)は、適切な構成的理解を備えたビジョンランゲージモデルである。
合成学習のための 訓練画像の合成には 3つの課題があります。
本稿では,画像特徴注入を高速テキスト・画像生成モデルに統合したロバスト構成学習を支援するための合成摂動法を提案する。
- 参考スコア(独自算出の注目度): 7.879286384561264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Paired image-text data with subtle variations in-between (e.g., people holding surfboards vs. people holding shovels) hold the promise of producing Vision-Language Models with proper compositional understanding. Synthesizing such training data from generative models is a highly coveted prize due to the reduced cost of data collection. However, synthesizing training images for compositional learning presents three challenges: (1) efficiency in generating large quantities of images, (2) text alignment between the generated image and the caption in the exact place of the subtle change, and (3) image fidelity in ensuring sufficient similarity with the original real images in all other places. We propose SPARCL (Synthetic Perturbations for Advancing Robust Compositional Learning), which integrates image feature injection into a fast text-to-image generative model, followed by an image style transfer step, to meet the three challenges. Further, to cope with any residual issues of text alignment, we propose an adaptive margin loss to filter out potentially incorrect synthetic samples and focus the learning on informative hard samples. Evaluation on four compositional understanding benchmarks demonstrates that SPARCL significantly improves the compositionality of CLIP, boosting the average accuracy of the CLIP base model by over 8% across all benchmarks and outperforming state-of-the-art methods by 2% on three benchmarks.
- Abstract(参考訳): 例えば、サーフボードを持っている人とシャベルを持っている人)間の微妙なバリエーションを持つペア画像テキストデータは、適切な構成的理解を持つビジョン・ランゲージ・モデルを作成することを約束する。
このようなトレーニングデータを生成モデルから合成することは、データ収集のコストが削減されたため、非常に有望な賞である。
しかし、合成学習のための訓練画像の合成には、(1)大量の画像を生成する効率、(2)微妙な変化の正確な場所で生成した画像とキャプションのテキストアライメント、(3)他のすべての場所で元の実画像と十分な類似性を確保するための画像忠実さの3つの課題がある。
SPARCL (Synthetic Perturbations for Advancing Robust Compositional Learning) は,画像特徴注入を高速テキスト・画像生成モデルに統合し,次に画像スタイルの変換ステップを付加し,これら3つの課題を満たす。
さらに, テキストアライメントの残余問題に対処するために, 不正確な合成サンプルをフィルタリングし, 難読なハードサンプルに焦点を合わせる適応的マージン損失を提案する。
4つの構成的理解ベンチマークの評価により,SPARCLはCLIPの合成性を大幅に向上し,CLIPベースモデルの平均精度を8%以上向上し,3つのベンチマークで最先端の手法を2%以上上回った。
関連論文リスト
- From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval [30.33315985826623]
Composed Image Retrieval (CIR) は、参照画像と付随する修正テキストに基づいてターゲット画像を取得する、困難なマルチモーダルタスクである。
本稿では,マッピングから構成に至るまでのトレーニングを行うための2段階のフレームワークを提案する。
最初の段階では、視覚的意味注入モジュールを導入して、画像から擬似単語へのトークン学習を強化する。
第2段階では、少量の合成三重項データを用いてテキストエンコーダを最適化し、合成意味論を効果的に抽出する。
論文 参考訳(メタデータ) (2025-04-25T00:18:23Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - QADM-Net: Multi-Level Quality-Adaptive Dynamic Network for Reliable Multimodal Classification [57.08108545219043]
現在のマルチモーダル分類法では、信頼性の高い推論を実現するために、サンプル固有の深さとパラメータの動的ネットワークが欠如している。
マルチレベル品質適応型動的マルチモーダルネットワーク(QADM-Net)を提案する。
4つのデータセットで行った実験により、QADM-Netは分類性能と信頼性において最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-19T03:26:51Z) - Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - EEG-SCMM: Soft Contrastive Masked Modeling for Cross-Corpus EEG-Based Emotion Recognition [0.862468061241377]
本稿では,感情認識のためのソフトコントラスト・マスケッド・モデリング(SCMM)フレームワークを提案する。
SCMMはソフトコントラスト学習と新しいハイブリッドマスキング戦略を統合し、人間の感情に固有の「短期連続性」特性を効果的にマイニングする。
実験の結果、SCMMは最先端(SOTA)の性能を達成し、平均4.26%の精度で2番目に良い方法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-17T12:35:13Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation [20.138831477848615]
本研究では,複数のサンプルから得られた詳細なコンセンサス知識を効果的に活用することにより,出力品質を最適化するFSCを提案する。
FSCの有効性は、要約、コード生成、数学的推論など、様々なタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2024-07-02T08:38:31Z) - Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散モデルは現実的で多様な画像を生成することができ、データ集約的な知覚タスクのためのデータ可用性を促進する可能性がある。
高品質なクロスモダリティトレーニングサンプルを生成する新しいフレームワークであるtextbfAuto textbfCherry-textbfPicker (ACP) を提案する。
論文 参考訳(メタデータ) (2024-06-28T17:53:18Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - The Right Losses for the Right Gains: Improving the Semantic Consistency
of Deep Text-to-Image Generation with Distribution-Sensitive Losses [0.35898124827270983]
本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。
このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。
提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
論文 参考訳(メタデータ) (2023-12-18T00:05:28Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Generative Image Inpainting with Segmentation Confusion Adversarial
Training and Contrastive Learning [14.358417509144523]
本稿では,画像インパインティングのための新しい対角的学習フレームワークについて述べる。
SCATは、画素レベルの局所的なトレーニング信号を提供する、インペイントジェネレータとセグメンテーションネットワークの間の対角ゲームを行う。
2つのベンチマークデータセットに対して広範な実験を行い、質的かつ定量的にモデルの有効性と優越性を実証した。
論文 参考訳(メタデータ) (2023-03-23T09:34:17Z) - Defect Transfer GAN: Diverse Defect Synthesis for Data Augmentation [4.559353193715442]
Defect Transfer GAN(DT-GAN)は、さまざまなバックグラウンド製品から独立した欠陥タイプを表現することを学ぶ。
MVTec ADと2つの追加データセットに関する実証研究は、DT-GANが最先端の画像合成法より優れていることを示した。
その結果, DT-GANによる拡張データにより, 少数のサンプル状態においても一貫した利得が得られることがわかった。
論文 参考訳(メタデータ) (2023-02-16T15:35:21Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real
Data [58.50411487497146]
ラベルのない実データと協調する新しい画像デハージングフレームワークを提案する。
まず,特徴表現を3つの成分マップに切り離す不整合画像デハージングネットワーク(DID-Net)を開発する。
そして、無ラベルの実データと協調して単一画像のデハージングを促進するために、不整合平均教師ネットワーク(DMT-Net)を用いる。
論文 参考訳(メタデータ) (2021-08-06T04:00:28Z) - Improving Text-to-Image Synthesis Using Contrastive Learning [4.850820365312369]
本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。
CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T06:43:31Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。