Fugu-MT 論文翻訳(概要): An Analysis of Human Alignment of Latent Diffusion Models

論文の概要: An Analysis of Human Alignment of Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2403.08469v1
Date: Wed, 13 Mar 2024 12:31:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 14:43:46.030222
Title: An Analysis of Human Alignment of Latent Diffusion Models
Title（参考訳）: 潜時拡散モデルにおける人間のアライメントの解析
Authors: Lorenz Linhardt and Marco Morik and Sidney Bender and Naima Elosegui Borras
Abstract要約: 大量のデータに基づいて訓練された拡散モデルは、画像合成に顕著な性能を示した。それらは、人間とのエラーの整合性が高く、分類に使用するときのテクスチャバイアスも低い。このような表現が3重の奇数ワンアウトタスクにおいて、人間の反応にどの程度うまく一致しているかを分析する。
参考スコア（独自算出の注目度）: 4.301861805545143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models, trained on large amounts of data, showed remarkable performance for image synthesis. They have high error consistency with humans and low texture bias when used for classification. Furthermore, prior work demonstrated the decomposability of their bottleneck layer representations into semantic directions. In this work, we analyze how well such representations are aligned to human responses on a triplet odd-one-out task. We find that despite the aforementioned observations: I) The representational alignment with humans is comparable to that of models trained only on ImageNet-1k. II) The most aligned layers of the denoiser U-Net are intermediate layers and not the bottleneck. III) Text conditioning greatly improves alignment at high noise levels, hinting at the importance of abstract textual information, especially in the early stage of generation.
Abstract（参考訳）: 大量のデータに基づいて訓練された拡散モデルは、画像合成に顕著な性能を示した。それらは、人間とのエラーの整合性が高く、分類に使用するときのテクスチャバイアスも低い。さらに、以前の研究は、ボトルネック層表現を意味的な方向へ分解可能であることを示した。本研究では,3重の奇数ワンアウトタスクにおいて,このような表現が人間の反応にどの程度うまく一致しているかを解析する。 I) ImageNet-1kでのみトレーニングされたモデルに匹敵する表現的アライメント。 II) Denoiser U-Netの最も整列したレイヤは中間層であり、ボトルネックではありません。 3)テキストコンディショニングは,特に生成初期段階において,抽象的なテキスト情報の重要性を示唆し,高雑音レベルのアライメントを大幅に改善する。

関連論文リスト

Latent Diffusion U-Net Representations Contain Positional Embeddings and Anomalies [2.1261727383260043]
表現的類似性とノルムを用いて、人気のある安定拡散モデルを分析する。その結果,(1)中間表現に学習された位置埋め込みの存在,(2)高相似コーナーアーティファクト,(3)異常な高ノルムアーティファクトの3つの現象が明らかになった。
論文参考訳（メタデータ） (2025-04-09T16:26:26Z)
LEGION: Learning to Ground and Explain for Synthetic Image Detection [49.958951540410816]
提案するSynthScarsは,12,236個の完全合成画像からなる高品質で多様なデータセットである。 4つの異なる画像コンテンツタイプ、3つのアーティファクトカテゴリ、ピクセルレベルのセグメンテーション、詳細なテキスト説明、アーティファクトカテゴリラベルを含んでいる。人工物の検出,分割,説明を統合するマルチモーダル大規模言語モデル(MLLM)に基づく画像偽造解析フレームワークであるLEGIONを提案する。
論文参考訳（メタデータ） (2025-03-19T14:37:21Z)
Generalized Pose Space Embeddings for Training In-the-Wild using Anaylis-by-Synthesis [0.0]
我々は、ポーズの意味を捉えることができるより表現力のある中間骨格表現を開発した。我々は、合成データに基づくトレーニングプロトコルを用いて、分析バイシンセシスフレームワークを拡張した。提案手法は,従来の標準ベンチマークを用いた分析・合成訓練モデルよりも優れていた。
論文参考訳（メタデータ） (2024-11-13T13:40:27Z)
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
DreamMover: Leveraging the Prior of Diffusion Models for Image Interpolation with Large Motion [35.60459492849359]
本研究では,大きな動きを持つ画像対から中間画像を生成する問題について検討する。大きな動きのため、中間的な意味情報は入力画像に欠落する可能性がある。 3つの主要コンポーネントを持つ新しいイメージフレームワークであるDreamMoverを提案する。
論文参考訳（メタデータ） (2024-09-15T04:09:12Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文参考訳（メタデータ） (2024-03-25T03:18:39Z)
CRADL: Contrastive Representations for Unsupervised Anomaly Detection and Localization [2.8659934481869715]
医用画像における教師なし異常検出は、訓練中に異常データを必要とせず、任意の異常を検出し、位置決めすることを目的としている。現在の最先端の手法のほとんどは、画像上で直接動作する潜在変数生成モデルを使用している。コントラストプレテクストタスクで訓練されたエンコーダの低次元表現空間において,正規サンプルの分布を直接モデル化するCRADLを提案する。
論文参考訳（メタデータ） (2023-01-05T16:07:49Z)
What the DAAM: Interpreting Stable Diffusion Using Cross Attention [39.97805685586423]
大規模拡散ニューラルネットワークは、テキスト・画像生成において重要なマイルストーンである。説明可能性の欠如と解釈可能性の分析は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。本稿では,潜伏するサブネットワークにおけるクロスアテンションアクティベーションのアップスケーリングと集約に基づく新しい手法であるDAAMを提案する。 DAAMは,61.0のmIoUを達成し,キャプション生成画像に対して強く作用し,オープン語彙セグメンテーションにおける教師付きモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-10T17:55:41Z)
Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文参考訳（メタデータ） (2021-01-15T10:23:12Z)
Learning Compositional Neural Information Fusion for Human Parsing [181.48380078517525]
我々はこのアプローチを神経情報融合フレームワークとして定式化する。我々のモデルは階層上の3つの推論プロセスから情報を収集する。モデル全体がエンドツーエンドで識別可能であり、情報フローと構造を明示的にモデル化する。
論文参考訳（メタデータ） (2020-01-19T10:35:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。