論文の概要: Composing People Together: Iterative Pose-Image Generation for Multi-Person Interaction Scenes
- arxiv url: http://arxiv.org/abs/2605.23178v1
- Date: Fri, 22 May 2026 02:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.171884
- Title: Composing People Together: Iterative Pose-Image Generation for Multi-Person Interaction Scenes
- Title(参考訳): 人々をまとめて構成する:多人数インタラクションシーンのための反復的なポーズ画像生成
- Authors: Wenxuan Peng, Bharath Hariharan, Hadar Averbuch-Elor,
- Abstract要約: 本稿では,人中心構造を事前学習した拡散トランスフォーマーに導入する2つのポーズイメージ表現を提案する。
我々のモデルは2次元ポーズ可視化画像とその対応するRGB画像を共同で予測し、学習中に構造と外観が共進化することを可能にする。
- 参考スコア(独自算出の注目度): 43.80002823999604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress, text-to-image models still struggle to generate semantically diverse and compositionally accurate multi-person interaction scenes, often collapsing to repetitive layouts, stereotypical poses, and poorly grounded interactions. In this work, we bridge this gap by introducing a dual pose-image representation that brings person-centric structural priors into pretrained diffusion transformers. Our model jointly predicts a 2D pose visualization image and its corresponding RGB image, enabling structure and appearance to co-evolve during learning. At its core, a cross-modal alignment scheme binds text, pose, and image representations, ensuring consistent grounding across modalities. Furthermore, we design an iterative scene construction scheme, progressively generating complex multi-human interactions while effectively decomposing the overall generation complexity. Extensive experiments demonstrate that our method substantially improves prompt alignment and scene diversity in multi-person image generation.
- Abstract(参考訳): 近年の進歩にもかかわらず、テキストと画像のモデルは意味的に多様性があり、構成的に正確な多対人インタラクションシーンを生成するのに苦慮している。
本研究では,このギャップを,事前学習された拡散トランスフォーマーに人中心の構造的先行性をもたらす2つのポーズイメージ表現を導入することで埋める。
我々のモデルは2次元ポーズ可視化画像とその対応するRGB画像を共同で予測し、学習中に構造と外観が共進化することを可能にする。
その中核にあるクロスモーダルアライメントスキームは、テキスト、ポーズ、画像表現をバインドし、モダリティ間の一貫した接地を保証する。
さらに,複雑なマルチヒューマンインタラクションを段階的に生成し,全体の生成複雑性を効果的に分解する反復的なシーン構築方式を設計する。
広汎な実験により,複数人物画像生成におけるアライメントとシーンの多様性が大幅に向上することが示された。
関連論文リスト
- Multimodal Large Language Models for Multi-Subject In-Context Image Generation [56.20395856287325]
音楽は、textbfMUlti-textbfSubject textbfIn-textbfContextイメージ生成用に特別に設計された最初のMLLMである。
我々は,視覚連鎖機構による多目的意味関係の理解を深める。
訓練中に複雑な被写体画像を取り込むことで,連鎖推論におけるモデルの能力を向上させる。
論文 参考訳(メタデータ) (2026-04-08T15:37:42Z) - MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。
提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文 参考訳(メタデータ) (2024-06-11T12:32:53Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z) - Exploiting Relationship for Complex-scene Image Generation [43.022978211274065]
本研究では,複数のオブジェクトをシーングラフとして関連づける関係認識型複素画像生成について考察する。
生成フレームワークに3つの大きなアップデートを提案する。
第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。
第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。
第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
論文 参考訳(メタデータ) (2021-04-01T09:21:39Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。