Fugu-MT 論文翻訳(概要): Latent Representation Matters: Human-like Sketches in One-shot Drawing Tasks

論文の概要: Latent Representation Matters: Human-like Sketches in One-shot Drawing Tasks

arxiv url: http://arxiv.org/abs/2406.06079v1
Date: Mon, 10 Jun 2024 07:52:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 14:37:02.516532
Title: Latent Representation Matters: Human-like Sketches in One-shot Drawing Tasks
Title（参考訳）: 潜在表現事項:一発描画作業における人間のようなスケッチ
Authors: Victor Boutin, Rishav Mukherji, Aditya Agrawal, Sabine Muzellec, Thomas Fel, Thomas Serre, Rufin VanRullen,
Abstract要約: 我々は、異なる誘導バイアスが潜在拡散モデル(LDM)の潜時空間をどのように形成するかを研究する。冗長性の低減とプロトタイプベース正規化によるLCDが, ほぼ人間に近い図形を生成することを示す。
参考スコア（独自算出の注目度）: 15.328499301244708
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans can effortlessly draw new categories from a single exemplar, a feat that has long posed a challenge for generative models. However, this gap has started to close with recent advances in diffusion models. This one-shot drawing task requires powerful inductive biases that have not been systematically investigated. Here, we study how different inductive biases shape the latent space of Latent Diffusion Models (LDMs). Along with standard LDM regularizers (KL and vector quantization), we explore supervised regularizations (including classification and prototype-based representation) and contrastive inductive biases (using SimCLR and redundancy reduction objectives). We demonstrate that LDMs with redundancy reduction and prototype-based regularizations produce near-human-like drawings (regarding both samples' recognizability and originality) -- better mimicking human perception (as evaluated psychophysically). Overall, our results suggest that the gap between humans and machines in one-shot drawings is almost closed.
Abstract（参考訳）: 人間は1つの模範から新しいカテゴリーを熱心に描き出すことができる。しかし、このギャップは近年の拡散モデルの発展とともに閉ざされ始めている。このワンショット描画タスクは、体系的に研究されていない強力な帰納的バイアスを必要とする。本稿では, 遅延拡散モデル (LDM) の潜在空間を, 異なる帰納バイアスがいかに形成するかを考察する。標準 LDM 正規化器 (KL とベクトル量子化) とともに、教師付き正規化 (分類とプロトタイプベース表現を含む) と対照的な帰納バイアス (SimCLR と冗長化目標) を探索する。筆者らは, 冗長性の低下とプロトタイプベース正規化によるLCDが, ほぼ人間に近い図面(サンプルの認識性と独創性の両方を考慮)を生成し, 人間の知覚を模倣する(精神物理学的に評価される)ことを実証した。全体としては、単発描画における人間と機械のギャップはほぼ閉ざされていることを示唆している。

関連論文リスト

Unconditional Human Motion and Shape Generation via Balanced Score-Based Diffusion [3.8472567301096174]
スコアベース拡散モデルが非条件の人間の動作生成における最先端の結果と同等であることを示す。提案手法を段階的に構築し,各コンポーネントに対する明確な理論的モチベーションを付与し,各追加提案の有効性を個別に示す。
論文参考訳（メタデータ） (2025-10-14T14:02:22Z)
Selective Underfitting in Diffusion Models [62.51850508420274]
拡散モデルは,学習時間の帰納バイアスによる経験的スコアに不適合である。スコアを至る所で不適合にする代わりに、より良い拡散モデルは入力空間の特定の領域のスコアをより正確に近似し、他の領域では不適合にする。その結果, 拡散モデルを理解するためには選択的不適合性が不可欠であることが確認され, 一般化と生成性能に関する新たな検証可能な知見が得られた。
論文参考訳（メタデータ） (2025-10-01T19:06:20Z)
MeDi: Metadata-Guided Diffusion Models for Mitigating Biases in Tumor Classification [13.350688594462214]
本稿では,このようなメタデータを生成拡散モデルフレームワーク(MeDi)に明示的にモデル化する手法を提案する。 MeDiは、不足しているサブ集団を合成データで対象とする拡張を可能にする。 TCGAの未確認サブポピュレーションに対して,MeDiが高品質な病理像を生成することを実験的に示す。
論文参考訳（メタデータ） (2025-06-20T16:41:25Z)
Bayesian Cross-Modal Alignment Learning for Few-Shot Out-of-Distribution Generalization [47.64583975469164]
本稿では,この問題に対処するために,新しいクロスモーダルな画像テキストアライメント学習手法(Bayes-CAL)を提案する。 Bayes-CALは2次元分布シフトにおける最先端のOoD一般化性能を達成する。 CLIPのようなモデルと比較して、Bayes-CALは目に見えないクラスでより安定した一般化性能を得る。
論文参考訳（メタデータ） (2025-04-13T06:13:37Z)
A Distributional Evaluation of Generative Image Models [2.520143908749992]
画像生成モデルの評価に焦点が当てられ、人間の評価を金の基準として扱う研究が盛んである。本研究では,学習したサンプル分布と対象サンプル分布の分布一致を評価するための総合的指標である埋め込み特性スコア(ECS)を提案する。
論文参考訳（メタデータ） (2025-01-01T06:23:18Z)
Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling [47.82616476928464]
仮面拡散モデル (MDM) は離散データの生成モデルとして人気がある。我々はMDMのトレーニングとサンプリングの両方が理論的に時間変数から解放されていることを示す。一般に使用されている32ビット浮動小数点精度においても,まず基礎となる数値問題を同定した。
論文参考訳（メタデータ） (2024-09-04T17:48:19Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
Multimodal Composite Association Score: Measuring Gender Bias in Generative Multimodal Models [6.369985818712948]
マルチモーダル・コンポジット・アソシエーション・スコア(MCAS)は,マルチモーダル・ジェネレーティブ・モデルにおいて,ジェンダーバイアスを測定する新しい手法である。 MCASは、様々なモダリティと様々な潜在的なバイアスを持つモデルの潜在的なバイアスを定量化する、アクセス可能でスケーラブルな方法である。
論文参考訳（メタデータ） (2023-04-26T22:53:31Z)
Rethinking Semi-Supervised Medical Image Segmentation: A Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。 5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文参考訳（メタデータ） (2023-02-03T13:50:25Z)
Diffusion Models as Artists: Are we Closing the Gap between Humans and Machines? [4.802758600019422]
2022年、ブーティンらによる「多様性対認識可能性」スコアリングの枠組みを適用した。ワンショット拡散モデルが人間と機械のギャップを埋め始めたことは明らかです。
論文参考訳（メタデータ） (2023-01-27T14:08:15Z)
Imitating Human Behaviour with Diffusion Models [25.55215280101109]
拡散モデルはテキスト・ツー・イメージ領域において強力な生成モデルとして出現している。本稿では, 連続した環境下での人間の行動を模倣する観察行動モデルとしての利用について検討する。
論文参考訳（メタデータ） (2023-01-25T16:31:05Z)
Drawing out of Distribution with Neuro-Symbolic Generative Models [49.79371715591122]
ドローイング・アウト・オブ・ディストリクト(英: Drawing out of Distribution)は、ストローク・ベース・ドローイングの神経象徴的生成モデルである。 DooDは画像を直接操作するが、監視や高価なテストタイム推論は必要ない。我々は、データとタスクをまたいだ一般化能力について、DooDを評価した。
論文参考訳（メタデータ） (2022-06-03T21:40:22Z)
Diversity vs. Recognizability: Human-like generalization in one-shot generative models [5.964436882344729]
サンプル認識可能性と多様性の2つの軸に沿った1ショット生成モデルを評価するための新しい枠組みを提案する。まず、GANのようなモデルとVAEのようなモデルが多様性認識性空間の反対側にあることを示す。対照的に、非絡み合いは、認識可能性の最大化に使用できるパラボラ曲線に沿ってモデルを輸送する。
論文参考訳（メタデータ） (2022-05-20T13:17:08Z)
Entropy-Based Uncertainty Calibration for Generalized Zero-Shot Learning [49.04790688256481]
一般化ゼロショット学習(GZSL)の目的は、目に見えないクラスと見えないクラスの両方を認識することである。ほとんどのGZSLメソッドは、通常、見えないクラスの意味情報から視覚表現を合成することを学ぶ。本論文では,三重項損失を持つ2重変分オートエンコーダを利用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-01-09T05:21:27Z)
Appearance Consensus Driven Self-Supervised Human Mesh Recovery [67.20942777949793]
単眼画像から人間のポーズや形状を推定する自己教師付きメッシュ回復フレームワークを提案する。標準モデルに基づく3次元ポーズ推定ベンチマークの最先端結果を得る。その結果、色付きメッシュ予測により、ポーズや形状推定以外にも、さまざまな外観関連タスクにフレームワークの使用が開放される。
論文参考訳（メタデータ） (2020-08-04T05:40:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。