論文の概要: Grounding Synthetic Data Generation With Vision and Language Models
- arxiv url: http://arxiv.org/abs/2603.09625v1
- Date: Tue, 10 Mar 2026 13:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.323945
- Title: Grounding Synthetic Data Generation With Vision and Language Models
- Title(参考訳): 視覚と言語モデルを用いた接地合成データ生成
- Authors: Ümit Mert Çağlar, Alptekin Temizel,
- Abstract要約: 本稿では,リモートセンシングにおける合成データ拡張と評価を解釈可能な視覚言語基盤フレームワークを提案する。
このフレームワークに基づいて、ARAS400k: セグメント化とキャプションのための合成データで拡張された大規模リモートセンシングデータセット。
ARAS400kは、意味合成を分析し、キャプションの冗長性を最小化し、視覚構造と言語記述間の相互整合性を検証することによって、合成データの自動評価を可能にする。
- 参考スコア(独自算出の注目度): 4.554894288663752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models benefit from increasing data diversity and volume, motivating synthetic data augmentation to improve existing datasets. However, existing evaluation metrics for synthetic data typically calculate latent feature similarity, which is difficult to interpret and does not always correlate with the contribution to downstream tasks. We propose a vision-language grounded framework for interpretable synthetic data augmentation and evaluation in remote sensing. Our approach combines generative models, semantic segmentation and image captioning with vision and language models. Based on this framework, we introduce ARAS400k: A large-scale Remote sensing dataset Augmented with Synthetic data for segmentation and captioning, containing 100k real images and 300k synthetic images, each paired with segmentation maps and descriptions. ARAS400k enables the automated evaluation of synthetic data by analyzing semantic composition, minimizing caption redundancy, and verifying cross-modal consistency between visual structures and language descriptions. Experimental results indicate that while models trained exclusively on synthetic data reach competitive performance levels, those trained with augmented data (a combination of real and synthetic images) consistently outperform real-data baselines. Consequently, this work establishes a scalable benchmark for remote sensing tasks, specifically in semantic segmentation and image captioning. The dataset is available at zenodo.org/records/18890661 and the code base at github.com/caglarmert/ARAS400k.
- Abstract(参考訳): ディープラーニングモデルは、データの多様性とボリュームの増加、既存のデータセットを改善するための合成データ拡張の動機付けの恩恵を受ける。
しかし、既存の合成データの評価基準は、典型的には潜時的特徴類似性を計算するが、これは解釈が困難であり、下流タスクへの貢献と必ずしも相関しない。
本稿では,リモートセンシングにおける合成データ拡張と評価を解釈可能な視覚言語基盤フレームワークを提案する。
提案手法は, 生成モデル, セマンティックセグメンテーション, 画像キャプションと視覚モデルと言語モデルを組み合わせる。
セグメント化とキャプションのための合成データで拡張された大規模なリモートセンシングデータセットで、100万個の実画像と300万個の合成画像を含み、それぞれにセグメント化マップと記述が組み合わされている。
ARAS400kは、意味合成を分析し、キャプションの冗長性を最小化し、視覚構造と言語記述間の相互整合性を検証することによって、合成データの自動評価を可能にする。
実験結果から,合成データのみを訓練したモデルは競争性能レベルに達するが,拡張データ(実画像と合成画像の組み合わせ)を訓練したモデルは,常に実データベースラインを上回っていることがわかった。
これにより、リモートセンシングタスク、特にセマンティックセグメンテーションや画像キャプションにおいて、スケーラブルなベンチマークが確立される。
データセットはzenodo.org/records/18890661で、コードベースはgithub.com/caglarmert/ARAS400kで入手できる。
関連論文リスト
- Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
Contrastive Language-Image Pre-Training (CLIP)は、様々なベンチマークで有望なパフォーマンスを示す。
マルチモーダルなインターリーブド文書のかなりの量は、コントラッシブな視覚言語表現学習に使われていない。
高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。
そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。
リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを構築し,15M,30M,100Mの3つのスケールで利用可能である。
論文 参考訳(メタデータ) (2025-02-18T03:58:38Z) - SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。
合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。
その結果, 提案手法の有効性と合成データの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-13T14:58:21Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Adapting to Unseen Vendor Domains for MRI Lesion Segmentation [0.08156494881838945]
本稿では,ソースデータセットからターゲットデータセットへのMR画像の拡張を目的とした教師なし画像翻訳モデルについて検討する。
画像間の変換、スキャナーベンダー間の変換、ラベルから画像への変換からなるデータセット間の拡張の3つの構成について検討する。
その結果、ラベルから画像構成までの合成データに基づいて訓練されたセグメンテーションモデルが、ターゲットデータセット上で直接訓練されたセグメンテーションモデルに最も近い性能を示した。
論文 参考訳(メタデータ) (2021-08-14T01:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。