論文の概要: KNN-Diffusion: Image Generation via Large-Scale Retrieval
- arxiv url: http://arxiv.org/abs/2204.02849v1
- Date: Wed, 6 Apr 2022 14:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 12:38:59.648680
- Title: KNN-Diffusion: Image Generation via Large-Scale Retrieval
- Title(参考訳): KNN拡散:大規模検索による画像生成
- Authors: Oron Ashual, Shelly Sheynin, Adam Polyak, Uriel Singer, Oran Gafni,
Eliya Nachmani, Yaniv Taigman
- Abstract要約: 適応する学習は、いくつかの新しい機能を可能にします。
微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。
我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
- 参考スコア(独自算出の注目度): 40.6656651653888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the availability of massive Text-Image datasets is shown to be
extremely useful in training large-scale generative models (e.g. DDPMs,
Transformers), their output typically depends on the quality of both the input
text, as well as the training dataset. In this work, we show how large-scale
retrieval methods, in particular efficient K-Nearest-Neighbors (KNN) search,
can be used in order to train a model to adapt to new samples. Learning to
adapt enables several new capabilities. Sifting through billions of records at
inference time is extremely efficient and can alleviate the need to train or
memorize an adequately large generative model. Additionally, fine-tuning
trained models to new samples can be achieved by simply adding them to the
table. Rare concepts, even without any presence in the training set, can be
then leveraged during test time without any modification to the generative
model. Our diffusion-based model trains on images only, by leveraging a joint
Text-Image multi-modal metric. Compared to baseline methods, our generations
achieve state of the art results both in human evaluations as well as with
perceptual scores when tested on a public multimodal dataset of natural images,
as well as on a collected dataset of 400 million Stickers.
- Abstract(参考訳): 大規模なテキスト画像データセットの可用性は、大規模な生成モデル(ddpmやトランスフォーマーなど)のトレーニングに非常に有用であることが示されているが、その出力は通常、入力テキストとトレーニングデータセットの両方の品質に依存する。
本研究では,大規模な検索手法,特にK-Nearest-Neighbors(KNN)探索が,新しいサンプルに適応するモデルをトレーニングするためにどのように利用できるかを示す。
適応する学習はいくつかの新しい機能を可能にする。
推測時に数十億のレコードを網羅することは極めて効率的であり、適切な大規模な生成モデルを訓練または記憶する必要が軽減される。
さらに、訓練済みモデルをテーブルに追加するだけで、新しいサンプルに調整することができる。
稀な概念は、たとえトレーニングセットに存在せずにも、生成モデルを変更することなく、テスト時間中に活用することができる。
拡散に基づくモデルでは,テキストと画像の融合マルチモーダルメトリックを活用し,画像のみを訓練する。
ベースライン手法と比較して,我々の世代は,自然画像の公開マルチモーダルデータセットと4億ステッカーの収集データセットを用いて,人間の評価と知覚スコアの両方において,技術結果の状態を達成している。
関連論文リスト
- Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Comparison of self-supervised in-domain and supervised out-domain transfer learning for bird species recognition [0.19183348587701113]
別のタスクを支援するために事前訓練されたモデルの重みを移すことは、現代のディープラーニングの重要な部分となっている。
本実験は,鳥種認識のためのドメイン内モデルとデータセットの有用性を実証するものである。
論文 参考訳(メタデータ) (2024-04-26T08:47:28Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - FSL-Rectifier: Rectify Outliers in Few-Shot Learning via Test-Time Augmentation [7.477118370563593]
FSL(Few-shot-learning)は通常、トレーニング中に目に見えないクラスに属する画像(クエリ)を識別するモデルを必要とする。
生成画像コンバインダを用いて、原サンプルと適切な列車クラスサンプルを組み合わせることで、追加のテストクラスサンプルを生成する。
我々は、平均化によってより典型的な表現をもたらす拡張子を介して平均化された特徴を得る。
論文 参考訳(メタデータ) (2024-02-28T12:37:30Z) - Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文 参考訳(メタデータ) (2023-06-20T08:02:59Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。