Fugu-MT 論文翻訳(概要): Towards Anatomically Plausible Human Image Generation via Synthetic Localized Preferences

論文の概要: Towards Anatomically Plausible Human Image Generation via Synthetic Localized Preferences

arxiv url: http://arxiv.org/abs/2605.25759v1
Date: Mon, 25 May 2026 12:10:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:19.939254
Title: Towards Anatomically Plausible Human Image Generation via Synthetic Localized Preferences
Title（参考訳）: 局所的選好による解剖学的に可塑性な人体画像生成に向けて
Authors: Bao Li, Yuliang Xiu, Zhen Liu,
Abstract要約: 大規模テキスト・画像基盤モデルは目覚ましい視覚的リアリズムを達成したが、正しい解剖学的構造を持つ人間の画像を生成することは依然として困難である。既存のアプローチでは、高品質な人間の写真の微調整中に、部分特異的なモジュールや局所的な損失重み付けを通じて解剖学的制約を強制する。高忠実度画像に適用した局所劣化機構を用いて、制御された選好ペアを構成する合成解剖学的選好(ASAP)によるアライメントの枠組みを提案する。
参考スコア（独自算出の注目度）: 10.361652486655528
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale text-to-image foundation models have achieved remarkable visual realism, yet generating human images with correct anatomical structures remains challenging. Existing approaches enforce anatomical constraints through part-specific modules or localized loss weighting during supervised fine-tuning on high-quality human photos, but such datasets are limited and often provide ambiguous optimization signals due to confounding factors such as lighting, pose, and background. Preference-based alignment offers an alternative, but standard Direct Preference Optimization (DPO) treats all pixels equally and therefore fails to exploit the localized nature of anatomical artifacts. To address this, we propose the framework of Alignment via Synthetic Anatomical Preference (ASAP), which constructs controlled preference pairs through a localized degradation mechanism applied to high-fidelity human images. This mechanism performs a controlled experiment on images by introducing explicit anatomical errors in targeted regions while preserving the remaining content. With this mechanism, we create the Human Anatomical Preference (HAP) dataset with over 10K curated pairs for effective anatomical alignment of text-to-image human image generative models. To better leverage the locality of these controlled preference pairs, we introduce a localized and margin-bounded variant of DPO that prioritizes optimization in targeted anatomical regions while enforcing a finite preference margin to prevent over-optimization and preserve global semantics. We further introduce HAF-Bench, a benchmark for systematic evaluation of anatomical fidelity. Extensive experiments demonstrate that ASAP consistently reduces anatomical errors across multiple foundation models while maintaining overall image quality.
Abstract（参考訳）: 大規模テキスト・画像基盤モデルは目覚ましい視覚的リアリズムを達成したが、正しい解剖学的構造を持つ人間の画像を生成することは依然として困難である。既存のアプローチは、高品質な人間の写真の微調整を行う際に、部分特異的なモジュールや局所的な損失重み付けによって解剖学的制約を強制するが、そのようなデータセットは限られており、照明、ポーズ、背景などの不明瞭な要因のために、しばしばあいまいな最適化信号を提供する。優先度に基づくアライメントは代替手段を提供するが、標準的な直接優先度最適化(DPO)はすべてのピクセルを等しく扱うため、解剖学的アーティファクトの局所的な性質を利用できない。そこで本研究では,高忠実度画像に適用した局所分解機構を用いて,制御された選好ペアを構成する合成解剖学的選好(ASAP)によるアライメントの枠組みを提案する。このメカニズムは、残りのコンテンツを保存しながら、ターゲット領域に明確な解剖学的エラーを導入することにより、画像上で制御された実験を行う。このメカニズムにより、テキストから画像への画像生成モデルの効果的な解剖学的アライメントのために、10K以上のキュレートされたペアを持つHuman Anatomical Preference(HAP)データセットを作成する。制御された選好ペアの局所性をよりよく活用するために,対象とする解剖学的領域における最適化を優先し,過度な最適化を防止し,大域的意味論を維持するために,有限選好マージンを強制するDPOの局所的および辺縁的変異を導入する。さらに,解剖学的忠実度を体系的に評価するためのベンチマークであるHAF-Benchを紹介する。大規模な実験により、ASAPは画像の全体的な品質を維持しながら、複数の基礎モデルの解剖学的エラーを一貫して低減することが示された。

関連論文リスト

VLM-Guided Group Preference Alignment for Diffusion-based Human Mesh Recovery [75.62565146049015]
我々は、予測メッシュの文脈認識品質スコアを生成するために、自己回帰付きデュアルメモリ拡張HMRクオリティエージェントを導入する。これらのスコアは、人間の3次元運動構造、物理的実現可能性、入力画像との整合性に関するきめ細かい手がかりを蒸留する。拡散型HMRモデルの微調整のためのグループ選好アライメントフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-22T13:19:06Z)
PDE-Constrained Optimization for Neural Image Segmentation with Physics Priors [0.0]
顕微鏡画像の画像は、計測ノイズ、弱い物体境界、限られたラベル付きデータによる不適切な逆問題を構成する。本研究では,PDE制約付き最適化問題としてイメージセグメンテーションを定式化し,物理的に動機付けられた事前処理を深層学習モデルに統合する。 LIVECellデータセットは、高画質で手動による位相コントラスト顕微鏡画像の収集である。
論文参考訳（メタデータ） (2026-02-01T07:28:14Z)
PathoSyn: Imaging-Pathology MRI Synthesis via Disentangled Deviation Diffusion [11.223559964746705]
磁気共鳴イメージング(MRI)画像合成のための統合生成フレームワークPathoSynを提案する。 PathoSynは、画像病理を安定な解剖学的多様体上の不整合加法偏差として再構成する。 PathoSynは、知覚現実主義と解剖学的忠実性の両方において、全体的拡散とマスク条件ベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2025-12-29T01:13:50Z)
Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文参考訳（メタデータ） (2024-11-23T19:10:32Z)
Anatomical feature-prioritized loss for enhanced MR to CT translation [0.0]
画像翻訳と合成の伝統的な方法は、一般的にグローバルな画像再構成に最適化されている。本研究は、新しい解剖学的特徴優先化(AFP)損失関数を合成プロセスに導入する。 AFP損失関数は、グローバルな再構成手法を置き換え、補うことができ、グローバルなイメージの忠実さと局所的な構造的詳細の両方にバランスよく重点を置いている。
論文参考訳（メタデータ） (2024-10-14T09:40:52Z)
Divide and Fuse: Body Part Mesh Recovery from Partially Visible Human Images [57.479339658504685]
ディバイドとフューズ」戦略は、人体部分を融合する前に独立して再構築する。 Human Part Parametric Models (HPPM) は、いくつかの形状とグローバルな位置パラメータからメッシュを独立に再構築する。特別に設計された融合モジュールは、一部しか見えない場合でも、再建された部品をシームレスに統合する。
論文参考訳（メタデータ） (2024-07-12T21:29:11Z)
Aligning Silhouette Topology for Self-Adaptive 3D Human Pose Recovery [70.66865453410958]
アーティキュレーション中心の2D/3Dポーズ監視は、既存の多くの人間のポーズ推定技術においてコアトレーニング目標を形成する。本稿では,ソース学習モデルベース回帰器を適応させるために,シルエット監視のみに依存する新しいフレームワークを提案する。我々は、トポロジカル・スケルトン表現を生シルエットから切り離すために、一連の畳み込みに優しい空間変換を開発する。
論文参考訳（メタデータ） (2022-04-04T06:58:15Z)
Controllable Person Image Synthesis with Spatially-Adaptive Warped Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文参考訳（メタデータ） (2021-05-31T07:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。