論文の概要: KNN-Diffusion: Image Generation via Large-Scale Retrieval
- arxiv url: http://arxiv.org/abs/2204.02849v1
- Date: Wed, 6 Apr 2022 14:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 12:38:59.648680
- Title: KNN-Diffusion: Image Generation via Large-Scale Retrieval
- Title(参考訳): KNN拡散:大規模検索による画像生成
- Authors: Oron Ashual, Shelly Sheynin, Adam Polyak, Uriel Singer, Oran Gafni,
Eliya Nachmani, Yaniv Taigman
- Abstract要約: 適応する学習は、いくつかの新しい機能を可能にします。
微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。
我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
- 参考スコア(独自算出の注目度): 40.6656651653888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the availability of massive Text-Image datasets is shown to be
extremely useful in training large-scale generative models (e.g. DDPMs,
Transformers), their output typically depends on the quality of both the input
text, as well as the training dataset. In this work, we show how large-scale
retrieval methods, in particular efficient K-Nearest-Neighbors (KNN) search,
can be used in order to train a model to adapt to new samples. Learning to
adapt enables several new capabilities. Sifting through billions of records at
inference time is extremely efficient and can alleviate the need to train or
memorize an adequately large generative model. Additionally, fine-tuning
trained models to new samples can be achieved by simply adding them to the
table. Rare concepts, even without any presence in the training set, can be
then leveraged during test time without any modification to the generative
model. Our diffusion-based model trains on images only, by leveraging a joint
Text-Image multi-modal metric. Compared to baseline methods, our generations
achieve state of the art results both in human evaluations as well as with
perceptual scores when tested on a public multimodal dataset of natural images,
as well as on a collected dataset of 400 million Stickers.
- Abstract(参考訳): 大規模なテキスト画像データセットの可用性は、大規模な生成モデル(ddpmやトランスフォーマーなど)のトレーニングに非常に有用であることが示されているが、その出力は通常、入力テキストとトレーニングデータセットの両方の品質に依存する。
本研究では,大規模な検索手法,特にK-Nearest-Neighbors(KNN)探索が,新しいサンプルに適応するモデルをトレーニングするためにどのように利用できるかを示す。
適応する学習はいくつかの新しい機能を可能にする。
推測時に数十億のレコードを網羅することは極めて効率的であり、適切な大規模な生成モデルを訓練または記憶する必要が軽減される。
さらに、訓練済みモデルをテーブルに追加するだけで、新しいサンプルに調整することができる。
稀な概念は、たとえトレーニングセットに存在せずにも、生成モデルを変更することなく、テスト時間中に活用することができる。
拡散に基づくモデルでは,テキストと画像の融合マルチモーダルメトリックを活用し,画像のみを訓練する。
ベースライン手法と比較して,我々の世代は,自然画像の公開マルチモーダルデータセットと4億ステッカーの収集データセットを用いて,人間の評価と知覚スコアの両方において,技術結果の状態を達成している。
関連論文リスト
- Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文 参考訳(メタデータ) (2023-06-20T08:02:59Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - Improved Techniques for Training Single-Image GANs [44.251222212306764]
生成モデルは、大きなデータセットからではなく、単一のイメージから学習することができる。
1つのサンプルのみから現実的な画像を生成することができるモデルを訓練するためのベストプラクティスを提案する。
私たちのモデルはトレーニングの最大6倍高速で、パラメータが少なく、画像のグローバルな構造をよりよく捉えることができます。
論文 参考訳(メタデータ) (2020-03-25T17:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。