論文の概要: Human-Aligned Generative Perception: Bridging Psychophysics and Generative Models
- arxiv url: http://arxiv.org/abs/2512.22272v1
- Date: Thu, 25 Dec 2025 01:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.950555
- Title: Human-Aligned Generative Perception: Bridging Psychophysics and Generative Models
- Title(参考訳): ヒューマン・アライン・ジェネレーティブ・パーセプション : ブリッジング心理学とジェネレーティブ・モデル
- Authors: Antara Titikhsha, Om Kulkarni, Dharun Muthaiah,
- Abstract要約: 本稿では,外部誘導信号として軽量なオフザシェルフディスクリミネータを用いて,専門訓練なしで幾何学的理解を導入することができるかどうかを検討する。
我々は,THINGS三重項データセットに基づいて学習したHuman Perception Embedding (HPE) 教師を提案する。
以上の結果から,小型教師モデルは大規模生成系を確実に誘導し,より強力な幾何学的制御を可能にし,テキスト・画像合成の創造的範囲を広げることが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models generate highly detailed textures, yet they often rely on surface appearance and fail to follow strict geometric constraints, particularly when those constraints conflict with the style implied by the text prompt. This reflects a broader semantic gap between human perception and current generative models. We investigate whether geometric understanding can be introduced without specialized training by using lightweight, off-the-shelf discriminators as external guidance signals. We propose a Human Perception Embedding (HPE) teacher trained on the THINGS triplet dataset, which captures human sensitivity to object shape. By injecting gradients from this teacher into the latent diffusion process, we show that geometry and style can be separated in a controllable manner. We evaluate this approach across three architectures: Stable Diffusion v1.5 with a U-Net backbone, the flow-matching model SiT-XL/2, and the diffusion transformer PixArt-Σ. Our experiments reveal that flow models tend to drift back toward their default trajectories without continuous guidance, and we demonstrate zero-shot transfer of complex three-dimensional shapes, such as an Eames chair, onto conflicting materials such as pink metal. This guided generation improves semantic alignment by about 80 percent compared to unguided baselines. Overall, our results show that small teacher models can reliably guide large generative systems, enabling stronger geometric control and broadening the creative range of text-to-image synthesis.
- Abstract(参考訳): テキスト間の拡散モデルは、非常に詳細なテクスチャを生成するが、表面的な外観に依存し、特にテキストプロンプトによって示唆されるスタイルと矛盾する場合、厳密な幾何学的制約に従わないことが多い。
これは、人間の知覚と現在の生成モデルの間のより広い意味的ギャップを反映している。
外部誘導信号として軽量なオフザシェルフ識別器を用いて, 専門訓練なしで幾何学的理解を導入することができるかどうかを検討する。
我々は,THINGS三重項データセットに基づいて学習したHuman Perception Embedding (HPE) 教師を提案する。
この教師から潜伏拡散過程に勾配を注入することにより、幾何学とスタイルを制御可能な方法で分離できることを示す。
U-Netバックボーンを持つ安定拡散v1.5、フローマッチングモデルSiT-XL/2、拡散変換器PixArt-Σの3つのアーキテクチャでこのアプローチを評価した。
実験の結果, 流れモデルでは, 連続的な誘導を伴わずに, デフォルト軌道へと後退する傾向があり, アイムズチェアのような複雑な3次元形状を, ピンクメタルなどの矛盾する材料にゼロショットで移動させることを示した。
このガイド付き生成は、誘導されていないベースラインと比較して、セマンティックアライメントを約80%改善する。
以上の結果から,小人数の教師が大規模生成システムを確実に誘導し,より強力な幾何学的制御を可能にし,テキスト・画像合成の創造的範囲を拡大できることが示唆された。
関連論文リスト
- PointDico: Contrastive 3D Representation Learning Guided by Diffusion Models [5.077352707415241]
textitPointDicoは、生成的モデリングの認知と、知識の蒸留を通じて、相互モーダルなコントラスト学習の両方から学習する。
textitPointDicoは、ScanObjectNNのtextbf94.32%の精度、ShapeNetPartのtextbf86.5%のInst.mIoUといった3D表現学習において、新しい最先端の3D表現学習を実現している。
論文 参考訳(メタデータ) (2025-12-09T07:57:56Z) - Generative Human Geometry Distribution [49.58025398670139]
我々は、最近提案された、高忠実度で単一の人間の幾何学をモデル化可能な、幾何学的分布に基づいて構築する。
本稿では,ネットワークパラメータではなく2次元特徴写像として分布を符号化する手法と,ガウスではなく領域としてSMPLモデルを提案する。
実験の結果,提案手法は既存の最先端手法よりも優れており,幾何学的品質が57%向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-03T11:55:19Z) - JADE: Joint-aware Latent Diffusion for 3D Human Generative Modeling [62.77347895550087]
JADEは人体形状の変化を微粒化制御で学習する生成フレームワークである。
私たちの重要な洞察は、人体を骨格構造に分解する共同認識の潜伏表現です。
提案した分解条件下でのコヒーレントで可塑性な人体形状を生成するため,カスケードパイプラインも提案する。
論文 参考訳(メタデータ) (2024-12-29T14:18:35Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - What Secrets Do Your Manifolds Hold? Understanding the Local Geometry of Generative Models [17.273596999339077]
本研究では,学習多様体の局所幾何学とその生成結果との関係について検討する。
筆者らは,与えられた潜伏像対に対して,局所記述子は生成モデルによる生成美学,多様性,記憶の指標であることを示す定量的および定性的な証拠を提供する。
論文 参考訳(メタデータ) (2024-08-15T17:59:06Z) - Sketch2Human: Deep Human Generation with Disentangled Geometry and Appearance Control [27.23770287587972]
この研究はSketch2Humanを、セマンティックスケッチでガイドされた、フルボディの人体画像生成を制御可能な最初のシステムとして紹介する。
本稿では,StyleGAN-Humanの潜伏空間からサンプル化した大規模な合成データセットを用いて訓練したスケッチエンコーダを提案する。
本手法は合成データを用いて訓練されているが,手描きスケッチも扱える。
論文 参考訳(メタデータ) (2024-04-24T14:24:57Z) - Surf-D: Generating High-Quality Surfaces of Arbitrary Topologies Using Diffusion Models [83.35835521670955]
Surf-Dは任意の位相を持つ表面として高品質な3次元形状を生成する新しい方法である。
非符号距離場(UDF)を曲面表現として用いて任意の位相を許容する。
また、ポイントベースのAutoEncoderを用いて、UDFを正確に符号化するためのコンパクトで連続的な潜在空間を学習する新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:56:01Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Deformable Model-Driven Neural Rendering for High-Fidelity 3D
Reconstruction of Human Heads Under Low-View Settings [20.07788905506271]
低視点で3Dの頭部を再構築することは技術的な課題を呈する。
幾何学的分解を提案し、2段階の粗大なトレーニング戦略を採用する。
提案手法は,低視野環境下での再現精度と新規ビュー合成の観点から,既存のニューラルレンダリング手法より優れる。
論文 参考訳(メタデータ) (2023-03-24T08:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。