論文の概要: InteractPro: A Unified Framework for Motion-Aware Image Composition
- arxiv url: http://arxiv.org/abs/2409.10090v2
- Date: Mon, 21 Jul 2025 05:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.703935
- Title: InteractPro: A Unified Framework for Motion-Aware Image Composition
- Title(参考訳): InteractPro: モーション対応画像合成のための統一フレームワーク
- Authors: Weijing Tao, Xiaofeng Yang, Miaomiao Cui, Guosheng Lin,
- Abstract要約: 動的モーション認識画像合成のための包括的フレームワークであるInteractProを紹介する。
コアとなるInteractPlanは、シナリオ分析とオブジェクト配置にLVLM(Large Vision Language Model)を活用するインテリジェントプランナーである。
それぞれのシナリオに基づいて、InteractPlanは2つの特別なモジュール、InteractPhysとInteractMotionを選択します。
- 参考スコア(独自算出の注目度): 51.672193627686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce InteractPro, a comprehensive framework for dynamic motion-aware image composition. At its core is InteractPlan, an intelligent planner that leverages a Large Vision Language Model (LVLM) for scenario analysis and object placement, determining the optimal composition strategy to achieve realistic motion effects. Based on each scenario, InteractPlan selects between our two specialized modules: InteractPhys and InteractMotion. InteractPhys employs an enhanced Material Point Method (MPM)-based simulation to produce physically faithful and controllable object-scene interactions, capturing diverse and abstract events that require true physical modeling. InteractMotion, in contrast, is a training-free method based on pretrained video diffusion. Traditional composition approaches suffer from two major limitations: requiring manual planning for object placement and generating static, motionless outputs. By unifying simulation-based and diffusion-based methods under planner guidance, InteractPro overcomes these challenges, ensuring richly motion-aware compositions. Extensive quantitative and qualitative evaluations demonstrate InteractPro's effectiveness in producing controllable, and coherent compositions across varied scenarios.
- Abstract(参考訳): 動的モーション認識画像合成のための包括的フレームワークであるInteractProを紹介する。
コアとなるInteractPlanは、シナリオ分析とオブジェクト配置にLVLM(Large Vision Language Model)を活用するインテリジェントプランナーであり、現実的な動作効果を達成するための最適な構成戦略を決定する。
それぞれのシナリオに基づいて、InteractPlanは2つの特別なモジュール、InteractPhysとInteractMotionを選択します。
InteractPhysは、強化されたマテリアルポイント法(MPM)ベースのシミュレーションを使用して、物理的に忠実で制御可能なオブジェクトとシーンの相互作用を生成し、真の物理的モデリングを必要とする多様な抽象的なイベントをキャプチャする。
対照的に、InteractMotionは事前訓練されたビデオ拡散に基づくトレーニング不要の手法である。
従来のコンポジションアプローチでは、オブジェクトの配置に手動の計画を必要とすることと、静的で動きのないアウトプットを生成するという2つの大きな制限に悩まされている。
InteractProは、シミュレーションベースと拡散ベースの手法をプランナー指導の下で統一することにより、これらの課題を克服し、リッチなモーションアウェアな構成を保証する。
広範囲にわたる定量的および質的な評価は、InteractProが様々なシナリオにまたがって制御可能でコヒーレントな構成を創出する効果を示している。
関連論文リスト
- A Structure-aware and Motion-adaptive Framework for 3D Human Pose Estimation with Mamba [18.376143217023934]
空間的関節トポロジーを捉えるための構造認識・運動適応型フレームワークを提案する。
上述のキーモジュールを通じて,本アルゴリズムは構造認識と動き適応型ポーズリフトを可能にする。
論文 参考訳(メタデータ) (2025-07-26T07:59:52Z) - HOComp: Interaction-Aware Human-Object Composition [62.93211305213214]
HOCompは、人中心の背景画像に前景オブジェクトを合成するための新しいアプローチである。
実験結果から,HOCompは一貫した外見を持つ人間と物体の相互作用を効果的に生成することが示された。
論文 参考訳(メタデータ) (2025-07-22T17:59:21Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。
これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。
MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文 参考訳(メタデータ) (2025-03-22T08:32:56Z) - Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。
従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。
近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。
補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:56:46Z) - Learning semantical dynamics and spatiotemporal collaboration for human pose estimation in video [3.2195139886901813]
マルチレベル意味論と多フレーム人間のポーズ推定を学習する新しいフレームワークを提案する。
具体的には、まずマルチタスクコンテキストを設計し、再構築戦略を示す。
この戦略は、光学(パッチ)立方体とフレームの特徴を徐々に隠蔽することにより、フレーム間の多時的意味関係を探索するモデルを刺激する。
論文 参考訳(メタデータ) (2025-02-15T00:35:34Z) - Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。
さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - A Unified Framework for Motion Reasoning and Generation in Human Interaction [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion-Languageモデルを提案する。
VIMは、動きとテキストのモダリティの両方を同時に理解し、生成することができる。
我々は,動画像のテキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト)、反応生成,動作編集,および動作系列の推論を含む複数の対話的動作関連タスク
論文 参考訳(メタデータ) (2024-10-08T02:23:53Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。
コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:59:40Z) - Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。
本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。
我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文 参考訳(メタデータ) (2024-03-29T14:14:22Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - UniQuadric: A SLAM Backend for Unknown Rigid Object 3D Tracking and
Light-Weight Modeling [7.626461564400769]
本稿では,エゴモーショントラッキング,剛体オブジェクトモーショントラッキング,モデリングを統一するSLAMバックエンドを提案する。
本システムは,複雑な動的シーンにおける物体知覚の潜在的な応用を実証する。
論文 参考訳(メタデータ) (2023-09-29T07:50:09Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - AMP: Adversarial Motion Priors for Stylized Physics-Based Character
Control [145.61135774698002]
我々は,与えられたシナリオで追跡するキャラクタの動作を選択するための完全自動化手法を提案する。
キャラクタが実行するべきハイレベルなタスク目標は、比較的単純な報酬関数によって指定できる。
キャラクタの動作の低レベルスタイルは、非構造化モーションクリップのデータセットによって指定できる。
本システムでは,最先端のトラッキング技術に匹敵する高品質な動作を生成する。
論文 参考訳(メタデータ) (2021-04-05T22:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。