論文の概要: Learning from Synthetic Data for Visual Grounding
- arxiv url: http://arxiv.org/abs/2403.13804v2
- Date: Mon, 16 Dec 2024 14:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:13.267592
- Title: Learning from Synthetic Data for Visual Grounding
- Title(参考訳): 視覚的接地のための合成データからの学習
- Authors: Ruozhen He, Ziyan Yang, Paola Cascante-Bonilla, Alexander C. Berg, Vicente Ordonez,
- Abstract要約: そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
- 参考スコア(独自算出の注目度): 55.21937116752679
- License:
- Abstract: This paper extensively investigates the effectiveness of synthetic training data to improve the capabilities of vision-and-language models for grounding textual descriptions to image regions. We explore various strategies to best generate image-text pairs and image-text-box triplets using a series of pretrained models under different settings and varying degrees of reliance on real data. Through comparative analyses with synthetic, real, and web-crawled data, we identify factors that contribute to performance differences, and propose SynGround, an effective pipeline for generating useful synthetic data for visual grounding. Our findings show that SynGround can improve the localization capabilities of off-the-shelf vision-and-language models and offers the potential for arbitrarily large scale data generation. Particularly, data generated with SynGround improves the pointing game accuracy of a pretrained ALBEF and BLIP models by 4.81% and 17.11% absolute percentage points, respectively, across the RefCOCO+ and the Flickr30k benchmarks.
- Abstract(参考訳): 本稿では,画像領域へのテキスト記述のグラウンド化のための視覚・言語モデルの有用性を向上させるために,合成学習データの有効性を広く検討する。
我々は、様々な設定下で事前訓練された一連のモデルを用いて、画像テキストペアと画像テキストボックス三重項を最適に生成し、実際のデータに依存する様々な戦略を探求する。
合成データ、実データ、ウェブクローリングデータの比較分析により、性能差に寄与する要因を特定し、視覚的グラウンドに有用な合成データを生成する効果的なパイプラインであるSynGroundを提案する。
この結果から,SynGroundは市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上し,任意の大規模データ生成の可能性を秘めていることがわかった。
特に、SynGroundで生成されたデータは、事前訓練されたALBEFとBLIPモデルのポインティングゲーム精度をRefCOCO+とFlickr30kベンチマークでそれぞれ4.81%と17.11%向上させる。
関連論文リスト
- FIDAVL: Fake Image Detection and Attribution using Vision-Language Model [14.448350657613368]
FIDAVLは、視覚と言語処理の相乗効果に触発された、新規で効率的なマルチタスクアプローチである。
視覚と言語間の相補性と、偽画像を検出するソフトなプロンプトチューニング戦略を利用する。
FIDAVLの平均検出精度は95.42%、F1スコアは95.47%である。
論文 参考訳(メタデータ) (2024-08-22T15:41:56Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Pushing Boundaries: Exploring Zero Shot Object Classification with Large
Multimodal Models [0.09264362806173355]
LLVA(Large Language and Vision Assistant Model)は、画像ベースのクエリと連動したリッチな会話体験をユーザに提供するモデルである。
本稿では,LMMについて一意に考察し,画像分類タスクの適応性について検討する。
我々の研究では、MNIST、Cats Vs. Dogs、Hymnoptera(Ants Vs. Bees)、Pox Vs. Non-Poxの皮膚画像からなる非伝統的なデータセットの4つの多様なデータセットのベンチマーク分析を含む。
論文 参考訳(メタデータ) (2023-12-30T03:19:54Z) - A Picture is Worth a Thousand Words: Principled Recaptioning Improves
Image Generation [9.552642210681489]
コーパスを特別な自動キャプションモデルで再現し、再カプセル化データセット上でテキスト・ツー・イメージモデルを訓練することにより、モデルがボード全体に大きなメリットをもたらすことを示す。
我々は、コーパスを緩和する様々な方法を分析し、この手法がRECAPと呼ばれ、どちらも列車の干渉の相違を低減し、例ごとにより多くの情報を提供するという証拠を提供する。
論文 参考訳(メタデータ) (2023-10-25T14:10:08Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。