論文の概要: Latent Representation Matters: Human-like Sketches in One-shot Drawing Tasks
- arxiv url: http://arxiv.org/abs/2406.06079v1
- Date: Mon, 10 Jun 2024 07:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:37:02.516532
- Title: Latent Representation Matters: Human-like Sketches in One-shot Drawing Tasks
- Title(参考訳): 潜在表現事項:一発描画作業における人間のようなスケッチ
- Authors: Victor Boutin, Rishav Mukherji, Aditya Agrawal, Sabine Muzellec, Thomas Fel, Thomas Serre, Rufin VanRullen,
- Abstract要約: 我々は、異なる誘導バイアスが潜在拡散モデル(LDM)の潜時空間をどのように形成するかを研究する。
冗長性の低減とプロトタイプベース正規化によるLCDが, ほぼ人間に近い図形を生成することを示す。
- 参考スコア(独自算出の注目度): 15.328499301244708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans can effortlessly draw new categories from a single exemplar, a feat that has long posed a challenge for generative models. However, this gap has started to close with recent advances in diffusion models. This one-shot drawing task requires powerful inductive biases that have not been systematically investigated. Here, we study how different inductive biases shape the latent space of Latent Diffusion Models (LDMs). Along with standard LDM regularizers (KL and vector quantization), we explore supervised regularizations (including classification and prototype-based representation) and contrastive inductive biases (using SimCLR and redundancy reduction objectives). We demonstrate that LDMs with redundancy reduction and prototype-based regularizations produce near-human-like drawings (regarding both samples' recognizability and originality) -- better mimicking human perception (as evaluated psychophysically). Overall, our results suggest that the gap between humans and machines in one-shot drawings is almost closed.
- Abstract(参考訳): 人間は1つの模範から新しいカテゴリーを熱心に描き出すことができる。
しかし、このギャップは近年の拡散モデルの発展とともに閉ざされ始めている。
このワンショット描画タスクは、体系的に研究されていない強力な帰納的バイアスを必要とする。
本稿では, 遅延拡散モデル (LDM) の潜在空間を, 異なる帰納バイアスがいかに形成するかを考察する。
標準 LDM 正規化器 (KL とベクトル量子化) とともに、教師付き正規化 (分類とプロトタイプベース表現を含む) と対照的な帰納バイアス (SimCLR と冗長化目標) を探索する。
筆者らは, 冗長性の低下とプロトタイプベース正規化によるLCDが, ほぼ人間に近い図面(サンプルの認識性と独創性の両方を考慮)を生成し, 人間の知覚を模倣する(精神物理学的に評価される)ことを実証した。
全体としては、単発描画における人間と機械のギャップはほぼ閉ざされていることを示唆している。
関連論文リスト
- Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling [47.82616476928464]
仮面拡散モデル (MDM) は離散データの生成モデルとして人気がある。
我々はMDMのトレーニングとサンプリングの両方が理論的に時間変数から解放されていることを示す。
一般に使用されている32ビット浮動小数点精度においても,まず基礎となる数値問題を同定した。
論文 参考訳(メタデータ) (2024-09-04T17:48:19Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Multimodal Composite Association Score: Measuring Gender Bias in
Generative Multimodal Models [6.369985818712948]
マルチモーダル・コンポジット・アソシエーション・スコア(MCAS)は,マルチモーダル・ジェネレーティブ・モデルにおいて,ジェンダーバイアスを測定する新しい手法である。
MCASは、様々なモダリティと様々な潜在的なバイアスを持つモデルの潜在的なバイアスを定量化する、アクセス可能でスケーラブルな方法である。
論文 参考訳(メタデータ) (2023-04-26T22:53:31Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Diffusion Models as Artists: Are we Closing the Gap between Humans and
Machines? [4.802758600019422]
2022年、ブーティンらによる「多様性対認識可能性」スコアリングの枠組みを適用した。
ワンショット拡散モデルが人間と機械のギャップを埋め始めたことは明らかです。
論文 参考訳(メタデータ) (2023-01-27T14:08:15Z) - Imitating Human Behaviour with Diffusion Models [25.55215280101109]
拡散モデルはテキスト・ツー・イメージ領域において強力な生成モデルとして出現している。
本稿では, 連続した環境下での人間の行動を模倣する観察行動モデルとしての利用について検討する。
論文 参考訳(メタデータ) (2023-01-25T16:31:05Z) - Drawing out of Distribution with Neuro-Symbolic Generative Models [49.79371715591122]
ドローイング・アウト・オブ・ディストリクト(英: Drawing out of Distribution)は、ストローク・ベース・ドローイングの神経象徴的生成モデルである。
DooDは画像を直接操作するが、監視や高価なテストタイム推論は必要ない。
我々は、データとタスクをまたいだ一般化能力について、DooDを評価した。
論文 参考訳(メタデータ) (2022-06-03T21:40:22Z) - Diversity vs. Recognizability: Human-like generalization in one-shot
generative models [5.964436882344729]
サンプル認識可能性と多様性の2つの軸に沿った1ショット生成モデルを評価するための新しい枠組みを提案する。
まず、GANのようなモデルとVAEのようなモデルが多様性認識性空間の反対側にあることを示す。
対照的に、非絡み合いは、認識可能性の最大化に使用できるパラボラ曲線に沿ってモデルを輸送する。
論文 参考訳(メタデータ) (2022-05-20T13:17:08Z) - Entropy-Based Uncertainty Calibration for Generalized Zero-Shot Learning [49.04790688256481]
一般化ゼロショット学習(GZSL)の目的は、目に見えないクラスと見えないクラスの両方を認識することである。
ほとんどのGZSLメソッドは、通常、見えないクラスの意味情報から視覚表現を合成することを学ぶ。
本論文では,三重項損失を持つ2重変分オートエンコーダを利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-09T05:21:27Z) - Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。
標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。
その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文 参考訳(メタデータ) (2020-08-04T05:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。