Fugu-MT 論文翻訳(概要): ASTRA: Enhancing Multi-Subject Generation with Retrieval-Augmented Pose Guidance and Disentangled Position Embedding

論文の概要: ASTRA: Enhancing Multi-Subject Generation with Retrieval-Augmented Pose Guidance and Disentangled Position Embedding

arxiv url: http://arxiv.org/abs/2604.13938v1
Date: Wed, 15 Apr 2026 14:50:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 20:38:32.586163
Title: ASTRA: Enhancing Multi-Subject Generation with Retrieval-Augmented Pose Guidance and Disentangled Position Embedding
Title（参考訳）: ASTRA: 検索機能強化ポッド誘導とアンタングル位置埋め込みによるマルチオブジェクト生成の強化
Authors: Tianze Xia, Zijian Ning, Zonglin Zhao, Mingjia Wang,
Abstract要約: ASTRAは、ポーズ構造から被写体を遠ざける新しいフレームワークである。 ASTRAはDreamBenchで高いアイデンティティとテキストアライメントを維持しながら、新しい最先端のポーズアテンデンスを実現している。
参考スコア（独自算出の注目度）: 1.4145309506833208
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Subject-driven image generation has shown great success in creating personalized content, but its capabilities are largely confined to single subjects in common poses. Current approaches face a fundamental conflict when handling multiple subjects with complex, distinct actions: preserving individual identities while enforcing precise pose structures. This challenge often leads to identity fusion and pose distortion, as appearance and structure signals become entangled within the model's architecture. To resolve this conflict, we introduce ASTRA(Adaptive Synthesis through Targeted Retrieval Augmentation), a novel framework that architecturally disentangles subject appearance from pose structure within a unified Diffusion Transformer. ASTRA achieves this through a dual-pronged strategy. It first employs a Retrieval-Augmented Pose (RAG-Pose) pipeline to provide a clean, explicit structural prior from a curated database. Then, its core generative model learns to process these dual visual conditions using our Enhanced Universal Rotary Position Embedding (EURoPE), an asymmetric encoding mechanism that decouples identity tokens from spatial locations while binding pose tokens to the canvas. Concurrently, a Disentangled Semantic Modulation (DSM) adapter offloads the identity preservation task into the text conditioning stream. Extensive experiments demonstrate that our integrated approach achieves superior disentanglement. On our designed COCO-based complex pose benchmark, ASTRA achieves a new state-of-the-art in pose adherence, while maintaining high identity fidelity and text alignment in DreamBench.
Abstract（参考訳）: 被写体駆動画像生成は、パーソナライズされたコンテンツを作成する上で大きな成功を収めてきたが、その能力は、共通のポーズで単一の被写体に限られている。現在のアプローチは、複数の主題を複雑で異なるアクションで扱う際に、基本的な対立に直面している。この課題は、外観や構造信号がモデルアーキテクチャ内で絡み合うようになると、アイデンティティの融合や歪みを引き起こすことが多い。この対立を解決するために,統合拡散変換器内のポーズ構造から対象の外観をアーキテクチャ的に切り離す新しいフレームワークであるASTRA(Adaptive Synthesis through Targeted Retrieval Augmentation)を導入する。 ASTRAは双対戦略によってこれを達成している。最初はRetrieval-Augmented Pose(RAG-Pose)パイプラインを使用して、キュレートされたデータベースからクリーンで明示的な構造を提供する。そして、その中心となる生成モデルは、空間的位置からアイデンティティトークンを分離し、トークンをキャンバスにバインドする非対称符号化機構であるEURoPE(Enhanced Universal Rotary Position Embedding)を用いて、これらの双対視覚条件を処理することを学習する。同時に、DSM(Disentangled Semantic Modulation)アダプタは、ID保存タスクをテキストコンディショニングストリームにオフロードする。広汎な実験により,我々の統合的アプローチはより優れた絡み合いを実現することが示された。設計したCOCOベースの複合ポーズベンチマークでは、ASTRAはDreamBenchにおける高いアイデンティティの忠実さとテキストアライメントを維持しながら、ポーズアテンデンスにおける新しい最先端の状態を達成している。

関連論文リスト

A Unified Conditional Flow for Motion Generation, Editing, and Intra-Structural Retargeting [26.68081874066983]
両タスクを単一の生成フレームワーク内で条件付き移動のインスタンスとしてキャストする統一的な視点を示す。我々はこのビジョンを、整流運動モデルと目標骨格構造を併用して実装する。 SnapMoGenとマルチキャラクタのMixamoサブセットの実験は、単一のトレーニングされたモデルがテキスト・ツー・モーション生成、ゼロショット編集、ゼロショット・イン・ストラクチャをサポートすることを示している。
論文参考訳（メタデータ） (2026-04-15T02:53:07Z)
Directing the Narrative: A Finetuning Method for Controlling Coherence and Style in Story Generation [2.9255420892138306]
堅牢で一貫したストーリー生成のために設計された2段階のフレームワークを提案する。まず、本質的な一貫性を促進するメカニズムであるGSA(Group-Shared Attention)を紹介する。第2に、DPO(Direct Preference Optimization)を利用して、生成した出力を人間の美学と物語の基準に合わせる。
論文参考訳（メタデータ） (2026-03-18T02:43:02Z)
AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation [55.94507360511886]
我々は,任意の文字にスケール可能なトランスフォーマーベースのビデオ生成フレームワークであるAnyCrowdを提案する。具体的には、まず、DiT処理に先立って文字インスタンスを独立してエンコードするIILR(Instance-Isolated Latent Representation)を導入し、遅延IDの絡み込みを防止する。この不整合表現に基づいて、さらに、(i)インスタンス認識フォアグラウンドアテンション、(ii)背景中心の相互作用、(iii)世界背景調整に自己注意を分解することで、運転ポーズにアイデンティティを結合するトリステージデカップリングアテンション(TSDA)を提案する。
論文参考訳（メタデータ） (2026-03-16T15:25:04Z)
Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion [2.510998372750843]
フリーハンドスケッチをフォトリアリスティックな画像に変換することは、画像合成の根本的な課題である。 GANベースのモデルや拡散ベースのモデルを含む既存のアプローチは、細かな細部を再構築したり、空間的アライメントを維持したり、異なるスケッチ領域に適応するのに苦労することが多い。本稿では,新しい2段階アーキテクチャを用いて,これらの課題に対処するスケッチ・ツー・イメージ生成のための,コンポーネント対応の自己修正フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-10T10:39:24Z)
PICS: Pairwise Image Compositing with Spatial Interactions [20.306534705755613]
PICSは、オブジェクトを並列に構成する自己教師型合成分解パラダイムである。インタラクショントランスフォーマーは、バックグラウンド、排他的、重複する領域をルーティングするために、マスク誘導ミキサーを使用する。幾何学的変動に対するロバスト性をさらに高めるため、平面外と平面内の両方のポーズ変化をカバーする幾何学的付加を取り入れた。
論文参考訳（メタデータ） (2026-03-06T20:48:21Z)
Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文参考訳（メタデータ） (2026-03-04T11:38:12Z)
DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer [21.788582116033684]
Video Face Swapping (VFS)は、ターゲットのビデオにソースIDをシームレスに注入する必要がある。既存の方法は、時間的一貫性を維持しながら、アイデンティティの類似性と属性の保存を維持するのに苦労する。本稿では,画像顔スワッピングの優位性をビデオ領域にシームレスに転送するための包括的フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-04T08:07:11Z)
Towards Robust and Realistic Human Pose Estimation via WiFi Signals [85.60557095666934]
WiFiベースの人間のポーズ推定は、離散的で微妙なWiFi信号を人間の骨格にブリッジする難しいタスクである。本論文は,本問題を再検討し,(1)ドメイン間ギャップ,(2)ソース・ターゲット領域のポーズ分布の顕著な変化,(2)骨格のポーズが歪んだトポロジーを示す構造的フィデリティギャップ,の2つの重要な問題を明らかにする。本稿では,タスクをDT-Poseと呼ばれる新しい2段階のフレームワークに書き換えることで,これらのギャップを埋める:ドメイン一貫性表現学習とトポロジ制約ポスデコーディング。
論文参考訳（メタデータ） (2025-01-16T09:38:22Z)
UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文参考訳（メタデータ） (2024-02-12T19:39:26Z)
Joint Disentangling and Adaptation for Cross-Domain Person Re-Identification [88.79480792084995]
本稿では,ID関連・非関連特徴を解き放つ共同学習フレームワークを提案し,ID関連特徴空間にのみ適応を強制する。我々のモデルは、ドメイン間の画像を共有外観空間と2つの別々の構造空間にエンコードするアンタングルモジュールと、共有外観空間上で対角アライメントと自己学習を行う適応モジュールを含む。
論文参考訳（メタデータ） (2020-07-20T17:57:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。