Fugu-MT 論文翻訳(概要): CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

論文の概要: CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

arxiv url: http://arxiv.org/abs/2604.19636v1
Date: Tue, 21 Apr 2026 16:25:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.86824
Title: CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation
Title（参考訳）: CoInteract:空間的に構造化されたコジェネレーションによる物理的に一貫性のある人間と物体のインタラクションビデオ合成
Authors: Xiangyang Luo, Xiaozhe Xin, Tao Feng, Xu Guo, Meiguang Jin, Junfeng Ma,
Abstract要約: 本稿では,人物参照画像,製品参照画像,テキストプロンプト,音声に条件付きHOIビデオ合成のためのエンドツーエンドフレームワークであるCoInteractを提案する。本稿では,トークンを空間的に制御されたルーティングを通じて,軽量な地域の専門家にルーティングするヒューマン・アウェア・ミックス・オブ・エクササイズ(MoE)を提案する。第2に、RGBの外観ストリームと補助的なHOI構造ストリームを併用して、相互作用幾何学の先行を注入するデュアルストリームトレーニングパラダイムである空間構造共生成を提案する。
参考スコア（独自算出の注目度）: 23.278316670516897
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthesizing human--object interaction (HOI) videos has broad practical value in e-commerce, digital advertising, and virtual marketing. However, current diffusion models, despite their photorealistic rendering capability, still frequently fail on (i) the structural stability of sensitive regions such as hands and faces and (ii) physically plausible contact (e.g., avoiding hand--object interpenetration). We present CoInteract, an end-to-end framework for HOI video synthesis conditioned on a person reference image, a product reference image, text prompts, and speech audio. CoInteract introduces two complementary designs embedded into a Diffusion Transformer (DiT) backbone. First, we propose a Human-Aware Mixture-of-Experts (MoE) that routes tokens to lightweight, region-specialized experts via spatially supervised routing, improving fine-grained structural fidelity with minimal parameter overhead. Second, we propose Spatially-Structured Co-Generation, a dual-stream training paradigm that jointly models an RGB appearance stream and an auxiliary HOI structure stream to inject interaction geometry priors. During training, the HOI stream attends to RGB tokens and its supervision regularizes shared backbone weights; at inference, the HOI branch is removed for zero-overhead RGB generation. Experimental results demonstrate that CoInteract significantly outperforms existing methods in structural stability, logical consistency, and interaction realism.
Abstract（参考訳）: ヒューマンオブジェクトインタラクション(HOI)ビデオの合成は、電子商取引、デジタル広告、仮想マーケティングにおいて幅広い実践的価値を持っている。しかし、現在の拡散モデルは、フォトリアリスティックなレンダリング能力にもかかわらず、それでも頻繁に失敗する。 i)手や顔などの敏感な領域の構造的安定性 (II)物理的にもっともらしい接触(例えば、手-物体の相互接続を避ける)。本稿では,人物参照画像,製品参照画像,テキストプロンプト,音声に条件付きHOIビデオ合成のためのエンドツーエンドフレームワークであるCoInteractを提案する。 CoInteract は Diffusion Transformer (DiT) のバックボーンに2つの補完設計を導入している。まず、トークンを軽量な地域の専門家に空間的に制御されたルーティングを通じてルーティングし、パラメータのオーバーヘッドを最小限に抑えながらきめ細かな構造的忠実度を向上させる、ヒューマン・アウェア・ミックス・オブ・エクスプロイト(MoE)を提案する。第2に、RGBの外観ストリームと補助的なHOI構造ストリームを併用して、相互作用幾何学の先行を注入するデュアルストリームトレーニングパラダイムである空間構造共生成を提案する。トレーニング中、HOIストリームはRGBトークンに出席し、その監督は共有バックボーン重みを規則化し、推測すると、HOIブランチはゼロオーバーヘッドRGB生成のために削除される。実験の結果、CoInteractは構造安定性、論理的整合性、相互作用リアリズムにおいて既存の手法を著しく上回っていることが示された。

関連論文リスト

SocialMirror: Reconstructing 3D Human Interaction Behaviors from Monocular Videos with Semantic and Geometric Guidance [49.69016078147708]
密接な相互作用シナリオにおける人間の行動の正確な再構築は、拡張現実における現実的な仮想インタラクションの実現に不可欠である。本稿では,これらの問題に効果的に対処するための意味的および幾何学的手がかりを統合する拡散ベースのフレームワークであるSocialMirrorを提案する。 SocialMirrorはインタラクティブなヒューマンメッシュを再構築する上で,最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-04-15T07:41:52Z)
AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文参考訳（メタデータ） (2026-02-04T15:42:58Z)
StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval [75.28673512571449]
Continual Text-to-Video Retrievalの重要な課題はフィーチャードリフトだ。我々はCTVRのための構造化クロスモーダルアライメント手法であるStructAlignを提案する。我々の手法は、常に最先端の連続検索手法より優れています。
論文参考訳（メタデータ） (2026-01-28T13:34:44Z)
UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass [83.7071371474926]
UniSHは、統合されたフィードフォワードフレームワークで、共同でメートルスケールの3Dシーンと人間の再構築を行う。我々のフレームワークは、シーン再構築とHMRとの違いを強く橋渡しします。本モデルは,人間中心のシーン再構築における最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-01-03T16:06:27Z)
Open-world Hand-Object Interaction Video Generation Based on Structure and Contact-aware Representation [18.328135509017944]
本研究では,3次元アノテーションを使わずに手対象接触,手対象閉塞,全体構造コンテキストをキャプチャする構造と接触認識表現を提案する。この対話指向でスケーラブルな監視信号により、モデルは微粒な相互作用物理学を学習し、オープンワールドシナリオに一般化することができる。本手法は物理実効性と時間的コヒーレントなHOIビデオを生成するために,2つの実世界のデータセット上で最先端の手法より優れている。
論文参考訳（メタデータ） (2025-12-01T13:44:31Z)
PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文参考訳（メタデータ） (2025-11-06T02:40:57Z)
Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文参考訳（メタデータ） (2025-10-11T06:36:59Z)
Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文参考訳（メタデータ） (2025-04-23T06:44:46Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。