論文の概要: Diversity vs. Recognizability: Human-like generalization in one-shot
generative models
- arxiv url: http://arxiv.org/abs/2205.10370v1
- Date: Fri, 20 May 2022 13:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 23:58:39.926968
- Title: Diversity vs. Recognizability: Human-like generalization in one-shot
generative models
- Title(参考訳): 多様性と認識可能性:ワンショット生成モデルにおける人間的一般化
- Authors: Victor Boutin, Lakshya Singhal, Xavier Thomas and Thomas Serre
- Abstract要約: サンプル認識可能性と多様性の2つの軸に沿った1ショット生成モデルを評価するための新しい枠組みを提案する。
まず、GANのようなモデルとVAEのようなモデルが多様性認識性空間の反対側にあることを示す。
対照的に、非絡み合いは、認識可能性の最大化に使用できるパラボラ曲線に沿ってモデルを輸送する。
- 参考スコア(独自算出の注目度): 5.964436882344729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust generalization to new concepts has long remained a distinctive feature
of human intelligence. However, recent progress in deep generative models has
now led to neural architectures capable of synthesizing novel instances of
unknown visual concepts from a single training example. Yet, a more precise
comparison between these models and humans is not possible because existing
performance metrics for generative models (i.e., FID, IS, likelihood) are not
appropriate for the one-shot generation scenario. Here, we propose a new
framework to evaluate one-shot generative models along two axes: sample
recognizability vs. diversity (i.e., intra-class variability). Using this
framework, we perform a systematic evaluation of representative one-shot
generative models on the Omniglot handwritten dataset. We first show that
GAN-like and VAE-like models fall on opposite ends of the
diversity-recognizability space. Extensive analyses of the effect of key model
parameters further revealed that spatial attention and context integration have
a linear contribution to the diversity-recognizability trade-off. In contrast,
disentanglement transports the model along a parabolic curve that could be used
to maximize recognizability. Using the diversity-recognizability framework, we
were able to identify models and parameters that closely approximate human
data.
- Abstract(参考訳): 新しい概念への堅牢な一般化は、長い間、人間の知性に特有の特徴として残されてきた。
しかし、近年の深層生成モデルの進歩により、単一のトレーニング例から未知の視覚概念の新たなインスタンスを合成できるニューラルネットワークが誕生した。
しかし、これらのモデルと人間とのより正確な比較は、生成モデル(例えば、FID、IS、可能性)の既存のパフォーマンス指標が単発生成シナリオには適さないため不可能である。
本稿では,2つの軸に沿った1ショット生成モデル(サンプル認識可能性対多様性(クラス内変動性))を評価するための新しい枠組みを提案する。
この枠組みを用いて,全文手書きデータセット上で,代表的ワンショット生成モデルの体系的評価を行う。
まず,gan様モデルとvae様モデルが,多様性認識可能性空間の両端に落下することを示す。
キーモデルパラメータの効果の広範な分析により、空間的注意と文脈統合が多様性認識可能性トレードオフに線形に寄与することが明らかとなった。
対照的に、乱れは、認識可能性の最大化に使用できる放物線曲線に沿ってモデルを輸送する。
多様性認識性フレームワークを用いて、人間のデータを近似したモデルとパラメータを同定することができた。
関連論文リスト
- Embedding-based statistical inference on generative models [10.948308354932639]
生成モデルの埋め込みに基づく表現に関する結果を、古典的な統計的推論設定に拡張する。
類似」の概念の基盤として視点空間を用いることは、複数のモデルレベルの推論タスクに有効であることを示す。
論文 参考訳(メタデータ) (2024-10-01T22:28:39Z) - Bayesian Inverse Graphics for Few-Shot Concept Learning [3.475273727432576]
最小限のデータのみを用いて学習するベイズ的知覚モデルを提案する。
本稿では、この表現が、数ショットの分類や推定などの下流タスクにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2024-09-12T18:30:41Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Indeterminacy in Latent Variable Models: Characterization and Strong
Identifiability [3.959606869996233]
潜在変数モデルの不確定性を解析するための理論的枠組みを構築する。
次に、強く識別可能な潜在変数モデルを特定する方法について検討する。
論文 参考訳(メタデータ) (2022-06-02T00:01:27Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。