論文の概要: An Analysis of Human Alignment of Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.08469v1
- Date: Wed, 13 Mar 2024 12:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:43:46.030222
- Title: An Analysis of Human Alignment of Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルにおける人間のアライメントの解析
- Authors: Lorenz Linhardt and Marco Morik and Sidney Bender and Naima Elosegui
Borras
- Abstract要約: 大量のデータに基づいて訓練された拡散モデルは、画像合成に顕著な性能を示した。
それらは、人間とのエラーの整合性が高く、分類に使用するときのテクスチャバイアスも低い。
このような表現が3重の奇数ワンアウトタスクにおいて、人間の反応にどの程度うまく一致しているかを分析する。
- 参考スコア(独自算出の注目度): 4.301861805545143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models, trained on large amounts of data, showed remarkable
performance for image synthesis. They have high error consistency with humans
and low texture bias when used for classification. Furthermore, prior work
demonstrated the decomposability of their bottleneck layer representations into
semantic directions. In this work, we analyze how well such representations are
aligned to human responses on a triplet odd-one-out task. We find that despite
the aforementioned observations: I) The representational alignment with humans
is comparable to that of models trained only on ImageNet-1k. II) The most
aligned layers of the denoiser U-Net are intermediate layers and not the
bottleneck. III) Text conditioning greatly improves alignment at high noise
levels, hinting at the importance of abstract textual information, especially
in the early stage of generation.
- Abstract(参考訳): 大量のデータに基づいて訓練された拡散モデルは、画像合成に顕著な性能を示した。
それらは、人間とのエラーの整合性が高く、分類に使用するときのテクスチャバイアスも低い。
さらに、以前の研究は、ボトルネック層表現を意味的な方向へ分解可能であることを示した。
本研究では,3重の奇数ワンアウトタスクにおいて,このような表現が人間の反応にどの程度うまく一致しているかを解析する。
I) ImageNet-1kでのみトレーニングされたモデルに匹敵する表現的アライメント。
II) Denoiser U-Netの最も整列したレイヤは中間層であり、ボトルネックではありません。
3)テキストコンディショニングは,特に生成初期段階において,抽象的なテキスト情報の重要性を示唆し,高雑音レベルのアライメントを大幅に改善する。
関連論文リスト
- SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。
系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。
この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文 参考訳(メタデータ) (2024-03-25T03:18:39Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - CRADL: Contrastive Representations for Unsupervised Anomaly Detection
and Localization [2.8659934481869715]
医用画像における教師なし異常検出は、訓練中に異常データを必要とせず、任意の異常を検出し、位置決めすることを目的としている。
現在の最先端の手法のほとんどは、画像上で直接動作する潜在変数生成モデルを使用している。
コントラストプレテクストタスクで訓練されたエンコーダの低次元表現空間において,正規サンプルの分布を直接モデル化するCRADLを提案する。
論文 参考訳(メタデータ) (2023-01-05T16:07:49Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - What the DAAM: Interpreting Stable Diffusion Using Cross Attention [39.97805685586423]
大規模拡散ニューラルネットワークは、テキスト・画像生成において重要なマイルストーンである。
説明可能性の欠如と解釈可能性の分析は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。
本稿では,潜伏するサブネットワークにおけるクロスアテンションアクティベーションのアップスケーリングと集約に基づく新しい手法であるDAAMを提案する。
DAAMは,61.0のmIoUを達成し,キャプション生成画像に対して強く作用し,オープン語彙セグメンテーションにおける教師付きモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T17:55:41Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - Learning Compositional Neural Information Fusion for Human Parsing [181.48380078517525]
我々はこのアプローチを神経情報融合フレームワークとして定式化する。
我々のモデルは階層上の3つの推論プロセスから情報を収集する。
モデル全体がエンドツーエンドで識別可能であり、情報フローと構造を明示的にモデル化する。
論文 参考訳(メタデータ) (2020-01-19T10:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。