論文の概要: Improving Personalized Image Generation through Social Context Feedback
- arxiv url: http://arxiv.org/abs/2507.16095v1
- Date: Mon, 21 Jul 2025 22:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.90462
- Title: Improving Personalized Image Generation through Social Context Feedback
- Title(参考訳): 社会的文脈フィードバックによるパーソナライズされた画像生成の改善
- Authors: Parul Gupta, Abhinav Dhall, Thanh-Toan Do,
- Abstract要約: 本稿では、既存のパーソナライズされた生成手法をフィードバックベースで微調整することで、これらの欠点を克服することを提案する。
拡散モデルを洗練させるために、ポーズ、人物相互作用、人間の顔認識、人間の視線点推定の最先端検出器を用いる。
この方法で生成された画像は、3つのベンチマークデータセット上で生成されたインタラクション、顔のアイデンティティ、画像品質の改善を示している。
- 参考スコア(独自算出の注目度): 15.582260415127935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized image generation, where reference images of one or more subjects are used to generate their image according to a scene description, has gathered significant interest in the community. However, such generated images suffer from three major limitations -- complex activities, such as $<$man, pushing, motorcycle$>$ are not generated properly with incorrect human poses, reference human identities are not preserved, and generated human gaze patterns are unnatural/inconsistent with the scene description. In this work, we propose to overcome these shortcomings through feedback-based fine-tuning of existing personalized generation methods, wherein, state-of-art detectors of pose, human-object-interaction, human facial recognition and human gaze-point estimation are used to refine the diffusion model. We also propose timestep-based inculcation of different feedback modules, depending upon whether the signal is low-level (such as human pose), or high-level (such as gaze point). The images generated in this manner show an improvement in the generated interactions, facial identities and image quality over three benchmark datasets.
- Abstract(参考訳): 1つ以上の被験者の参照画像を用いてシーン記述に従って画像を生成するパーソナライズされた画像生成は、コミュニティにおいて大きな関心を集めている。
しかし、このような生成された画像は3つの大きな制約に悩まされている。例えば、$<$man, push, motorcycle$>$のような複雑なアクティビティは、正しくない人間のポーズで適切に生成されず、参照された人間のアイデンティティは保存されず、生成された人間の視線パターンはシーン記述と不自然で矛盾する。
本研究では,従来のパーソナライズドジェネレーション手法をフィードバックベースで微調整し,ポーズ,人-物-インタラクション,人間の顔認識,人間の視線-ポイント推定といった技術を用いて拡散モデルを洗練させることによって,これらの欠点を克服することを提案する。
また、信号が低レベル(人間のポーズなど)か、高レベル(視線点など)かに応じて、異なるフィードバックモジュールのタイムステップに基づくインキュレーションを提案する。
この方法で生成された画像は、3つのベンチマークデータセット上で生成されたインタラクション、顔のアイデンティティ、画像品質の改善を示している。
関連論文リスト
- Realistic Clothed Human and Object Joint Reconstruction from a Single Image [26.57698106821237]
モノクラービューからリアルな3D衣服と物体を共同で再構築するための新しい暗黙のアプローチを導入する。
初めて、私たちは暗黙の表現で人間と物体の両方をモデル化し、衣服のようなより現実的な詳細を捉えます。
論文 参考訳(メタデータ) (2025-02-25T12:26:36Z) - MoLE: Enhancing Human-centric Text-to-image Diffusion via Mixture of Low-rank Experts [61.274246025372044]
顔と手の文脈における人間中心のテキスト・ツー・イメージ生成について検討する。
そこで我々は,手近画像と顔画像で訓練した低ランクモジュールをそれぞれ専門家として考慮し,Mixture of Low-rank Experts (MoLE) という手法を提案する。
この概念は、カスタマイズされたクローズアップデータセットによって訓練された低ランクモジュールが、適切なスケールで適用された場合、対応する画像部分を強化する可能性があるという、低ランクリファインメント(low-rank refinement)の観察から着想を得たものである。
論文 参考訳(メタデータ) (2024-10-30T17:59:57Z) - Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - HumanRefiner: Benchmarking Abnormal Human Generation and Refining with Coarse-to-fine Pose-Reversible Guidance [80.97360194728705]
AbHumanは、解剖学的異常に焦点を当てた最初の大規模なヒトのベンチマークである。
HumanRefinerは、テキスト・ツー・イメージ生成における人間の異常の粗い微細化のための新しいプラグ・アンド・プレイアプローチである。
論文 参考訳(メタデータ) (2024-07-09T15:14:41Z) - From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation [24.49857926071974]
バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
論文 参考訳(メタデータ) (2024-03-08T11:59:32Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Semantically Consistent Person Image Generation [18.73832646369506]
文脈認識型人物画像生成のためのデータ駆動型アプローチを提案する。
本手法では,生成した人物の位置,規模,外観を,現場の既存人物に対して意味的に条件付けする。
論文 参考訳(メタデータ) (2023-02-28T16:34:55Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。