Fugu-MT 論文翻訳(概要): Learning Vision from Models Rivals Learning Vision from Data

論文の概要: Learning Vision from Models Rivals Learning Vision from Data

arxiv url: http://arxiv.org/abs/2312.17742v1
Date: Thu, 28 Dec 2023 18:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 08:54:24.165338
Title: Learning Vision from Models Rivals Learning Vision from Data
Title（参考訳）: データからビジョンを学ぶモデルからビジョンを学ぶ
Authors: Yonglong Tian, Lijie Fan, Kaifeng Chen, Dina Katabi, Dilip Krishnan, Phillip Isola
Abstract要約: 合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。 LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
参考スコア（独自算出の注目度）: 54.43596959598465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce SynCLR, a novel approach for learning visual representations exclusively from synthetic images and synthetic captions, without any real data. We synthesize a large dataset of image captions using LLMs, then use an off-the-shelf text-to-image model to generate multiple images corresponding to each synthetic caption. We perform visual representation learning on these synthetic images via contrastive learning, treating images sharing the same caption as positive pairs. The resulting representations transfer well to many downstream tasks, competing favorably with other general-purpose visual representation learners such as CLIP and DINO v2 in image classification tasks. Furthermore, in dense prediction tasks such as semantic segmentation, SynCLR outperforms previous self-supervised methods by a significant margin, e.g., improving over MAE and iBOT by 6.2 and 4.3 mIoU on ADE20k for ViT-B/16.
Abstract（参考訳）: 合成画像と合成キャプションからのみ視覚表現を学習する新しい手法であるSynCLRを実データなしで導入する。 LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。コントラスト学習により合成画像上で視覚的表現学習を行い,同じキャプションを共有する画像を正のペアとして扱う。結果として得られる表現は多くの下流タスクにうまく移行し、画像分類タスクにおいてCLIPやDINO v2といった他の汎用視覚表現学習者と競合する。さらに、セマンティックセグメンテーションのような密集した予測タスクでは、SynCLRは従来の自己監督手法よりも、例えばViT-B/16のADE20k上でMAEとiBOTを6.2mIoUで改善している。

関連論文リスト

SynC: Synthetic Image Caption Dataset Refinement with One-to-many Mapping for Zero-shot Image Captioning [5.23086948974839]
Zero-shot Image Captioning (ZIC)は、テキスト・トゥ・イメージ(T2I)モデルによって生成される合成データセットをますます活用している。既存のデータセットプルーニング技術は、Webcrawledデータ中のノイズの多いテキストを削除するために主に設計されている。我々は、ZICのための合成画像キャプチャデータセットを洗練するための新しいフレームワークであるSynCを紹介する。
論文参考訳（メタデータ） (2025-07-24T17:53:26Z)
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
Contrastive Language-Image Pre-Training (CLIP)は、様々なベンチマークで有望なパフォーマンスを示す。マルチモーダルなインターリーブド文書のかなりの量は、コントラッシブな視覚言語表現学習に使われていない。高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを構築し,15M,30M,100Mの3つのスケールで利用可能である。
論文参考訳（メタデータ） (2025-02-18T03:58:38Z)
CLIPS: An Enhanced CLIP Framework for Learning with Synthetic Captions [31.624782806591682]
リッチに記述された合成キャプションをより効果的に活用するための2つのシンプルで効果的な設計を提案する。まず,合成キャプションを用いた学習において,強い逆効果が観察される。第二に、自己回帰キャプタを組み込んで、再カプセル化プロセスを模倣する。
論文参考訳（メタデータ） (2024-11-25T18:49:02Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-03-12T15:36:42Z)
Diversified in-domain synthesis with efficient fine-tuning for few-shot classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文参考訳（メタデータ） (2023-12-05T17:18:09Z)
Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文参考訳（メタデータ） (2023-07-16T13:41:39Z)
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文参考訳（メタデータ） (2023-06-01T17:59:51Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文参考訳（メタデータ） (2022-04-13T01:10:33Z)
Improving Text-to-Image Synthesis Using Contrastive Learning [4.850820365312369]
本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。 CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
論文参考訳（メタデータ） (2021-07-06T06:43:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。