論文の概要: Diffusion Models as Artists: Are we Closing the Gap between Humans and
Machines?
- arxiv url: http://arxiv.org/abs/2301.11722v1
- Date: Fri, 27 Jan 2023 14:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 15:27:42.063121
- Title: Diffusion Models as Artists: Are we Closing the Gap between Humans and
Machines?
- Title(参考訳): アーティストとしての拡散モデル:人間と機械のギャップを縮めるのか?
- Authors: Victor Boutin, Thomas Fel, Lakshya Singhal, Rishav Mukherji, Akash
Nagaraj, Julien Colin and Thomas Serre
- Abstract要約: 2022年、ブーティンらによる「多様性対認識可能性」スコアリングの枠組みを適用した。
ワンショット拡散モデルが人間と機械のギャップを埋め始めたことは明らかです。
- 参考スコア(独自算出の注目度): 4.802758600019422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important milestone for AI is the development of algorithms that can
produce drawings that are indistinguishable from those of humans. Here, we
adapt the 'diversity vs. recognizability' scoring framework from Boutin et al,
2022 and find that one-shot diffusion models have indeed started to close the
gap between humans and machines. However, using a finer-grained measure of the
originality of individual samples, we show that strengthening the guidance of
diffusion models helps improve the humanness of their drawings, but they still
fall short of approximating the originality and recognizability of human
drawings. Comparing human category diagnostic features, collected through an
online psychophysics experiment, against those derived from diffusion models
reveals that humans rely on fewer and more localized features. Overall, our
study suggests that diffusion models have significantly helped improve the
quality of machine-generated drawings; however, a gap between humans and
machines remains -- in part explainable by discrepancies in visual strategies.
- Abstract(参考訳): AIの重要なマイルストーンは、人間のものと区別できない描画を生成できるアルゴリズムの開発である。
ここでは、boutin et al, 2022の'diversity vs. recognizability'スコアリングフレームワークを採用し、ワンショット拡散モデルが実際に人間と機械のギャップを縮め始めたことを見出します。
しかし, 個々の試料の原性についてよりきめ細かい測定値を用いて, 拡散モデルによるガイダンスの強化は, 図面の人文性向上に寄与するが, 図面の原性や認識性には及ばないことを示す。
オンライン心理物理学実験を通じて収集されたヒトカテゴリー診断の特徴と拡散モデルから得られた特徴を比較すると、ヒトはより局所的な特徴に頼っていることが分かる。
我々の研究は、拡散モデルが機械が生成した図面の品質を著しく向上させたことを示唆しているが、人間と機械の間のギャップは、部分的には視覚戦略の相違によって説明できる。
関連論文リスト
- Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - DPoser: Diffusion Model as Robust 3D Human Pose Prior [50.390006148133764]
拡散モデルに基づいて構築された,頑丈で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、ヒューマンメッシュリカバリ、ポーズ完了、モーションデノイングなど、さまざまなポーズ中心のアプリケーションにシームレスに統合される。
我々の徹底的な実験は、DPoserが複数のタスクにまたがる既存の最先端のポーズよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-09T11:18:45Z) - Intriguing properties of generative classifiers [14.57861413242093]
我々は、テキストから画像へのモデルを分類器に変換する生成モデリングの進歩の上に構築する。
Imagenでは99%)、人間レベルのアウト・オブ・ディストリビューションの精度、人間の分類エラーと最先端のアライメントに近い、記録破りの人間のような形状バイアスを示しています。
以上の結果から,人間の物体認識のモデル化のパラダイムは差別的推論であるが,ゼロショット生成モデルは人間の物体認識データを驚くほどよく近似していることが示唆された。
論文 参考訳(メタデータ) (2023-09-28T18:19:40Z) - Analyzing Bias in Diffusion-based Face Generation Models [75.80072686374564]
拡散モデルは、合成データ生成と画像編集アプリケーションでますます人気がある。
本研究では, 性別, 人種, 年齢などの属性に関して, 拡散型顔生成モデルにおけるバイアスの存在について検討する。
本研究は,GAN(Generative Adversarial Network)とGAN(Generative Adversarial Network)をベースとした顔生成モデルにおいて,データセットサイズが属性組成および知覚品質に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-10T18:22:31Z) - Imitating Human Behaviour with Diffusion Models [25.55215280101109]
拡散モデルはテキスト・ツー・イメージ領域において強力な生成モデルとして出現している。
本稿では, 連続した環境下での人間の行動を模倣する観察行動モデルとしての利用について検討する。
論文 参考訳(メタデータ) (2023-01-25T16:31:05Z) - Diversity vs. Recognizability: Human-like generalization in one-shot
generative models [5.964436882344729]
サンプル認識可能性と多様性の2つの軸に沿った1ショット生成モデルを評価するための新しい枠組みを提案する。
まず、GANのようなモデルとVAEのようなモデルが多様性認識性空間の反対側にあることを示す。
対照的に、非絡み合いは、認識可能性の最大化に使用できるパラボラ曲線に沿ってモデルを輸送する。
論文 参考訳(メタデータ) (2022-05-20T13:17:08Z) - Partial success in closing the gap between human and machine vision [30.78663978510427]
数年前、最初のCNNがImageNetで人間のパフォーマンスを上回った。
人間のビジョンとマシンビジョンのギャップを埋める作業は進んでいますか?
我々は、広範囲なアウト・オブ・ディストリビューション(OOD)データセット上で、人間のオブザーバをテストした。
論文 参考訳(メタデータ) (2021-06-14T13:23:35Z) - Are Visual Explanations Useful? A Case Study in Model-in-the-Loop
Prediction [49.254162397086006]
画像に基づく年齢予測課題における視覚的満足度に基づく説明について検討する。
モデル予測の提示により,人間の精度が向上することが判明した。
しかし、様々な種類の説明は、人間の正確さやモデルの信頼を著しく変えることができない。
論文 参考訳(メタデータ) (2020-07-23T20:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。