論文の概要: Diffusion Models as Artists: Are we Closing the Gap between Humans and
Machines?
- arxiv url: http://arxiv.org/abs/2301.11722v3
- Date: Wed, 31 May 2023 16:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 03:19:59.576098
- Title: Diffusion Models as Artists: Are we Closing the Gap between Humans and
Machines?
- Title(参考訳): アーティストとしての拡散モデル:人間と機械のギャップを縮めるのか?
- Authors: Victor Boutin, Thomas Fel, Lakshya Singhal, Rishav Mukherji, Akash
Nagaraj, Julien Colin and Thomas Serre
- Abstract要約: 2022年、ブーティンらによる「多様性対認識可能性」スコアリングの枠組みを適用した。
ワンショット拡散モデルが人間と機械のギャップを埋め始めたことは明らかです。
- 参考スコア(独自算出の注目度): 4.802758600019422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An important milestone for AI is the development of algorithms that can
produce drawings that are indistinguishable from those of humans. Here, we
adapt the 'diversity vs. recognizability' scoring framework from Boutin et al,
2022 and find that one-shot diffusion models have indeed started to close the
gap between humans and machines. However, using a finer-grained measure of the
originality of individual samples, we show that strengthening the guidance of
diffusion models helps improve the humanness of their drawings, but they still
fall short of approximating the originality and recognizability of human
drawings. Comparing human category diagnostic features, collected through an
online psychophysics experiment, against those derived from diffusion models
reveals that humans rely on fewer and more localized features. Overall, our
study suggests that diffusion models have significantly helped improve the
quality of machine-generated drawings; however, a gap between humans and
machines remains -- in part explainable by discrepancies in visual strategies.
- Abstract(参考訳): AIの重要なマイルストーンは、人間のものと区別できない描画を生成できるアルゴリズムの開発である。
ここでは、boutin et al, 2022の'diversity vs. recognizability'スコアリングフレームワークを採用し、ワンショット拡散モデルが実際に人間と機械のギャップを縮め始めたことを見出します。
しかし, 個々の試料の原性についてよりきめ細かい測定値を用いて, 拡散モデルによるガイダンスの強化は, 図面の人文性向上に寄与するが, 図面の原性や認識性には及ばないことを示す。
オンライン心理物理学実験を通じて収集されたヒトカテゴリー診断の特徴と拡散モデルから得られた特徴を比較すると、ヒトはより局所的な特徴に頼っていることが分かる。
我々の研究は、拡散モデルが機械が生成した図面の品質を著しく向上させたことを示唆しているが、人間と機械の間のギャップは、部分的には視覚戦略の相違によって説明できる。
関連論文リスト
- MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance [80.97360194728705]
AbHumanは、解剖学的異常に焦点を当てた最初の大規模なヒトのベンチマークである。
HumanRefinerは、テキスト・ツー・イメージ生成における人間の異常の粗い微細化のための新しいプラグ・アンド・プレイアプローチである。
論文 参考訳(メタデータ) (2024-07-09T15:14:41Z) - Latent Representation Matters: Human-like Sketches in One-shot Drawing Tasks [15.328499301244708]
我々は、異なる誘導バイアスが潜在拡散モデル(LDM)の潜時空間をどのように形成するかを研究する。
冗長性の低減とプロトタイプベース正規化によるLCDが, ほぼ人間に近い図形を生成することを示す。
論文 参考訳(メタデータ) (2024-06-10T07:52:29Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Intriguing properties of generative classifiers [14.57861413242093]
我々は、テキストから画像へのモデルを分類器に変換する生成モデリングの進歩の上に構築する。
Imagenでは99%)、人間レベルのアウト・オブ・ディストリビューションの精度、人間の分類エラーと最先端のアライメントに近い、記録破りの人間のような形状バイアスを示しています。
以上の結果から,人間の物体認識のモデル化のパラダイムは差別的推論であるが,ゼロショット生成モデルは人間の物体認識データを驚くほどよく近似していることが示唆された。
論文 参考訳(メタデータ) (2023-09-28T18:19:40Z) - Imitating Human Behaviour with Diffusion Models [25.55215280101109]
拡散モデルはテキスト・ツー・イメージ領域において強力な生成モデルとして出現している。
本稿では, 連続した環境下での人間の行動を模倣する観察行動モデルとしての利用について検討する。
論文 参考訳(メタデータ) (2023-01-25T16:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。