論文の概要: SynC: Synthetic Image Caption Dataset Refinement with One-to-many Mapping for Zero-shot Image Captioning
- arxiv url: http://arxiv.org/abs/2507.18616v1
- Date: Thu, 24 Jul 2025 17:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:44.229899
- Title: SynC: Synthetic Image Caption Dataset Refinement with One-to-many Mapping for Zero-shot Image Captioning
- Title(参考訳): SynC: ゼロショット画像キャプションのための1対1マッピングによる合成画像キャプションデータセットのリファインメント
- Authors: Si-Woo Kim, MinJu Jeon, Ye-Chan Kim, Soeun Lee, Taewhan Kim, Dong-Jin Kim,
- Abstract要約: Zero-shot Image Captioning (ZIC)は、テキスト・トゥ・イメージ(T2I)モデルによって生成される合成データセットをますます活用している。
既存のデータセットプルーニング技術は、Webcrawledデータ中のノイズの多いテキストを削除するために主に設計されている。
我々は、ZICのための合成画像キャプチャデータセットを洗練するための新しいフレームワークであるSynCを紹介する。
- 参考スコア(独自算出の注目度): 5.23086948974839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot Image Captioning (ZIC) increasingly utilizes synthetic datasets generated by text-to-image (T2I) models to mitigate the need for costly manual annotation. However, these T2I models often produce images that exhibit semantic misalignments with their corresponding input captions (e.g., missing objects, incorrect attributes), resulting in noisy synthetic image-caption pairs that can hinder model training. Existing dataset pruning techniques are largely designed for removing noisy text in web-crawled data. However, these methods are ill-suited for the distinct challenges of synthetic data, where captions are typically well-formed, but images may be inaccurate representations. To address this gap, we introduce SynC, a novel framework specifically designed to refine synthetic image-caption datasets for ZIC. Instead of conventional filtering or regeneration, SynC focuses on reassigning captions to the most semantically aligned images already present within the synthetic image pool. Our approach employs a one-to-many mapping strategy by initially retrieving multiple relevant candidate images for each caption. We then apply a cycle-consistency-inspired alignment scorer that selects the best image by verifying its ability to retrieve the original caption via image-to-text retrieval. Extensive evaluations demonstrate that SynC consistently and significantly improves performance across various ZIC models on standard benchmarks (MS-COCO, Flickr30k, NoCaps), achieving state-of-the-art results in several scenarios. SynC offers an effective strategy for curating refined synthetic data to enhance ZIC.
- Abstract(参考訳): Zero-shot Image Captioning (ZIC)は、テキスト・トゥ・イメージ(T2I)モデルによって生成された合成データセットを活用して、コストのかかる手作業によるアノテーションの必要性を軽減する。
しかしながら、これらのT2Iモデルは、しばしば、対応する入力キャプション(例えば、欠落したオブジェクト、誤った属性)とセマンティックな不一致を示すイメージを生成し、結果として、モデルトレーニングを妨げるうるノイズの多い合成画像キャプチャペアを生成する。
既存のデータセットプルーニング技術は、Webcrawledデータ中のノイズの多いテキストを削除するために主に設計されている。
しかし、これらの手法は、典型的にはキャプションがよく形成されているが、画像が不正確な表現である合成データの難しさに不適である。
このギャップに対処するために、ZIC用の合成画像キャプチャデータセットを洗練するための新しいフレームワークであるSynCを紹介する。
従来のフィルタリングや再生の代わりに、SynCは、合成画像プール内にすでに存在している最もセマンティックに整合した画像にキャプションを再割り当てすることに焦点を当てている。
提案手法では,まず各キャプション毎に複数の候補画像を取得することで,一対多のマッピング戦略を採用する。
次に、サイクル一貫性に着想を得たアライメントスコアラを適用し、画像からテキストへ検索することで、元のキャプションを検索できることを検証する。
大規模な評価では、SynCは標準ベンチマーク(MS-COCO、Flickr30k、NoCaps)上で、さまざまなZICモデルに対して、一貫性と大幅なパフォーマンス向上を実現し、いくつかのシナリオで最先端の結果が達成されている。
SynCは、改良された合成データをZICを強化するための効果的な戦略を提供する。
関連論文リスト
- From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval [30.33315985826623]
Composed Image Retrieval (CIR) は、参照画像と付随する修正テキストに基づいてターゲット画像を取得する、困難なマルチモーダルタスクである。
本稿では,マッピングから構成に至るまでのトレーニングを行うための2段階のフレームワークを提案する。
最初の段階では、視覚的意味注入モジュールを導入して、画像から擬似単語へのトークン学習を強化する。
第2段階では、少量の合成三重項データを用いてテキストエンコーダを最適化し、合成意味論を効果的に抽出する。
論文 参考訳(メタデータ) (2025-04-25T00:18:23Z) - Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。
私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文 参考訳(メタデータ) (2024-12-31T13:39:08Z) - Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers [58.14748181398049]
データフリー量子化(DFQ)は、実際のデータにアクセスせずにモデル量子化を可能にし、データのセキュリティとプライバシに関する懸念に対処する。
ビジョントランスフォーマー(ViTs)の普及に伴い、ViTsのDFQは大きな注目を集めている。
本稿では,新しいセマンティックアライメントと強化データ自由化手法であるSARDFQを提案する。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - The Right Losses for the Right Gains: Improving the Semantic Consistency
of Deep Text-to-Image Generation with Distribution-Sensitive Losses [0.35898124827270983]
本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。
このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。
提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
論文 参考訳(メタデータ) (2023-12-18T00:05:28Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text
Recognition Models [9.934446907923725]
そこで本研究では,テキスト画像合成に使用される技術を分析し,一つのアルゴリズムで有効なものを統合することによって,新しい合成テキスト画像生成装置であるSynthTIGERを提案する。
我々の実験では、SynthTIGERは合成データセットの組合せよりも優れたSTR性能を実現する。
論文 参考訳(メタデータ) (2021-07-20T08:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。