論文の概要: FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios
- arxiv url: http://arxiv.org/abs/2505.03730v1
- Date: Tue, 06 May 2025 17:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.506437
- Title: FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios
- Title(参考訳): FlexiAct: 異種シナリオにおけるフレキシブルアクションコントロールを目指して
- Authors: Shiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang,
- Abstract要約: アクションカスタマイズでは、被験者が入力制御信号によって指示されたアクションを実行するビデオを生成する。
現在の手法では、ポーズ誘導やグローバルな動きのカスタマイズが使われているが、空間構造に対する厳密な制約によって制限されている。
本稿では、参照ビデオから任意のターゲット画像へアクションを転送するFlexiActを提案する。
- 参考スコア(独自算出の注目度): 49.09128364751743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action customization involves generating videos where the subject performs actions dictated by input control signals. Current methods use pose-guided or global motion customization but are limited by strict constraints on spatial structure, such as layout, skeleton, and viewpoint consistency, reducing adaptability across diverse subjects and scenarios. To overcome these limitations, we propose FlexiAct, which transfers actions from a reference video to an arbitrary target image. Unlike existing methods, FlexiAct allows for variations in layout, viewpoint, and skeletal structure between the subject of the reference video and the target image, while maintaining identity consistency. Achieving this requires precise action control, spatial structure adaptation, and consistency preservation. To this end, we introduce RefAdapter, a lightweight image-conditioned adapter that excels in spatial adaptation and consistency preservation, surpassing existing methods in balancing appearance consistency and structural flexibility. Additionally, based on our observations, the denoising process exhibits varying levels of attention to motion (low frequency) and appearance details (high frequency) at different timesteps. So we propose FAE (Frequency-aware Action Extraction), which, unlike existing methods that rely on separate spatial-temporal architectures, directly achieves action extraction during the denoising process. Experiments demonstrate that our method effectively transfers actions to subjects with diverse layouts, skeletons, and viewpoints. We release our code and model weights to support further research at https://shiyi-zh0408.github.io/projectpages/FlexiAct/
- Abstract(参考訳): アクションカスタマイズでは、被験者が入力制御信号によって指示されたアクションを実行するビデオを生成する。
現在の手法では、ポーズ誘導やグローバルな動きのカスタマイズが使用されているが、レイアウト、スケルトン、視点の整合性といった空間構造に対する厳密な制約により制限されており、様々な主題やシナリオに対する適応性が低下している。
これらの制限を克服するために、参照ビデオから任意のターゲット画像へアクションを転送するFlexiActを提案する。
既存の方法とは異なり、FlexiActでは、参照ビデオの主題と対象画像との間のレイアウト、視点、骨格構造を変更でき、アイデンティティの整合性を維持している。
これを達成するには、正確な行動制御、空間構造適応、一貫性の維持が必要である。
この目的のために,空間適応と整合性維持に優れ,外観整合性と構造的柔軟性のバランスをとる既存の手法を超越した,軽量なイメージコンディショニングアダプタRefAdapterを導入する。
さらに, 観察結果から, 異なるタイミングで動き(低周波)と出現詳細(高周波)に注意を向ける。
そこで本研究では,個別の時空間アーキテクチャに依存する既存の手法とは異なり,デノナイジングプロセス中に直接行動抽出を行うFAE(Frequency-aware Action extract)を提案する。
実験により, 多様なレイアウト, 骨格, 視点を持つ被験者に対して, 効果的に行動伝達を行うことが確認された。
コードとモデルの重みはhttps://shiyi-zh0408.github.io/projectpages/FlexiAct/でさらに研究をサポートするためにリリースしています。
関連論文リスト
- Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。
従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。
近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。
補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:56:46Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Actionlet-Dependent Contrastive Learning for Unsupervised Skeleton-Based
Action Recognition [33.68311764817763]
本稿では,ActCLR(Actionlet-Dependent Contrastive Learning Method)を提案する。
ヒト骨格の識別サブセットとして定義されるアクションレットは、より優れたアクションモデリングのために、効果的に運動領域を分解する。
異なるデータ変換がアクションレットおよび非アクションレット領域に適用され、独自の特性を維持しながら、より多くの多様性を導入する。
論文 参考訳(メタデータ) (2023-03-20T06:47:59Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z) - Learning to Manipulate Individual Objects in an Image [71.55005356240761]
本稿では,独立性および局所性を有する潜在因子を用いた生成モデルを学習する手法について述べる。
これは、潜伏変数の摂動が、オブジェクトに対応する合成画像の局所領域のみに影響を与えることを意味する。
他の教師なし生成モデルとは異なり、オブジェクトレベルのアノテーションを必要とせず、オブジェクト中心の操作を可能にする。
論文 参考訳(メタデータ) (2020-04-11T21:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。