論文の概要: Dataset Creation for Visual Entailment using Generative AI
- arxiv url: http://arxiv.org/abs/2508.11605v1
- Date: Fri, 15 Aug 2025 17:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.161996
- Title: Dataset Creation for Visual Entailment using Generative AI
- Title(参考訳): 生成AIを用いたビジュアルエンターテイメントのためのデータセット作成
- Authors: Rob Reijtenbach, Suzan Verberne, Gijs Wijnholds,
- Abstract要約: 視覚的エンターテイメントモデルをトレーニングするための新しい合成データセットを提示し、検証する。
合成データセットをSNLIデータセットに基づいてテキスト・エンテーメントを行う。
合成トレーニングデータはSNLI-VEの品質をわずかに低下させるだけであり、実データでトレーニングした場合のFスコア0.686と0.703とを比較した。
- 参考スコア(独自算出の注目度): 6.055924352838569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we present and validate a new synthetic dataset for training visual entailment models. Existing datasets for visual entailment are small and sparse compared to datasets for textual entailment. Manually creating datasets is labor-intensive. We base our synthetic dataset on the SNLI dataset for textual entailment. We take the premise text from SNLI as input prompts in a generative image model, Stable Diffusion, creating an image to replace each textual premise. We evaluate our dataset both intrinsically and extrinsically. For extrinsic evaluation, we evaluate the validity of the generated images by using them as training data for a visual entailment classifier based on CLIP feature vectors. We find that synthetic training data only leads to a slight drop in quality on SNLI-VE, with an F-score 0.686 compared to 0.703 when trained on real data. We also compare the quality of our generated training data to original training data on another dataset: SICK-VTE. Again, there is only a slight drop in F-score: from 0.400 to 0.384. These results indicate that in settings with data sparsity, synthetic data can be a promising solution for training visual entailment models.
- Abstract(参考訳): 本稿では,視覚的エンタテインメントモデルをトレーニングするための新しい合成データセットを提示し,検証する。
既存のビジュアルエンタテインメント用データセットは、テキストエンタテインメント用データセットと比較して小さく、まばらである。
手動でデータセットを作成するのは労働集約的です。
合成データセットをSNLIデータセットに基づいてテキスト・エンテーメントを行う。
我々は,SNLIの前提テキストを,生成的画像モデルである安定拡散(Stable Diffusion)の入力プロンプトとして捉え,各テキスト前提を置き換える画像を生成する。
我々は本質的にも外生的にもデータセットを評価する。
CLIP特徴ベクトルに基づく視覚的細分化分類器のトレーニングデータとして,生成画像の有効性を評価する。
合成トレーニングデータはSNLI-VEの品質をわずかに低下させるだけであり、実データでトレーニングした場合のFスコア0.686と0.703とを比較した。
また、生成されたトレーニングデータの品質を、別のデータセットであるSICK-VTEのトレーニングデータと比較する。
Fスコアは0.400から0.384までわずかに低下している。
これらの結果から,データ疎度の設定において,合成データは視覚的エンターメントモデルをトレーニングする上で,有望な解決策となる可能性が示唆された。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Data Extrapolation for Text-to-image Generation on Small Datasets [3.7356387436951146]
線形外挿を用いたテキスト・画像生成のための新しいデータ拡張手法を提案する。
トレーニングサンプルをオリジナルのデータセットの数十倍の規模で構築する。
我々のモデルは、CUB、オックスフォード、COCOのデータセットで7.91、9.52、および5.00のFIDスコアを達成する。
論文 参考訳(メタデータ) (2024-10-02T15:08:47Z) - HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts [49.21764163995419]
本稿では,HyPerbolic Entailment Filtering (HYPE)を導入し,ノイズの多い画像とテキストのペアのデータセットから有意で整合したデータを抽出する。
HYPEは、フィルタリング効率を大幅に改善するだけでなく、DataCompベンチマークで新しい最先端を設定できる。
このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2024-04-26T16:19:55Z) - DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation [20.703102374139537]
本稿では,Distilling dataset into Language Model (DiLM) と呼ばれる新しいテキストデータセット蒸留手法を提案する。
DiLMは、合成サンプルを直接最適化するのではなく、テキストデータとして情報的合成トレーニングサンプルを生成するために、言語モデルを訓練する。
私たちのコードはhttps://github.com/arumaekawa/DiLM.comで公開されます。
論文 参考訳(メタデータ) (2024-03-30T06:40:54Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Analysis of Training Object Detection Models with Synthetic Data [0.0]
本稿では,オブジェクト検出に合成データを使用する方法の概要を概説する。
データ生成の側面とモデルをトレーニングするテクニックを分析します。
実験は実データ上で検証され、実データでトレーニングされたモデルにベンチマークされる。
論文 参考訳(メタデータ) (2022-11-29T10:21:16Z) - ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback [21.168991554983815]
本稿では,プログレッシブなゼロショットデータセット生成フレームワークであるProGenを提案する。
ProGenは、1%の合成データセットサイズで、オンパーまたは優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-22T02:07:10Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。