論文の概要: SOSControl: Enhancing Human Motion Generation through Saliency-Aware Symbolic Orientation and Timing Control
- arxiv url: http://arxiv.org/abs/2601.14258v1
- Date: Fri, 14 Nov 2025 07:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.805
- Title: SOSControl: Enhancing Human Motion Generation through Saliency-Aware Symbolic Orientation and Timing Control
- Title(参考訳): SOSControl:Saliency-Aware Symbolic Orientation and Timing Controlによるヒューマンモーション生成の強化
- Authors: Ho Yin Au, Junkun Jiang, Jie Chen,
- Abstract要約: 本稿では,身体部分の向きと動作タイミングを直感的に指定するためのプログラム可能なシンボルフレームワークであるSalient Orientation (SOS)スクリプトを紹介する。
また,SOSControlフレームワークを提案する。このフレームワークは,スパースSOSスクリプトで利用可能な向きのシンボルを,動作生成時にこれらの制約を満たすことを優先的に扱う。
- 参考スコア(独自算出の注目度): 7.758232764141155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional text-to-motion frameworks often lack precise control, and existing approaches based on joint keyframe locations provide only positional guidance, making it challenging and unintuitive to specify body part orientations and motion timing. To address these limitations, we introduce the Salient Orientation Symbolic (SOS) script, a programmable symbolic framework for specifying body part orientations and motion timing at keyframes. We further propose an automatic SOS extraction pipeline that employs temporally-constrained agglomerative clustering for frame saliency detection and a Saliency-based Masking Scheme (SMS) to generate sparse, interpretable SOS scripts directly from motion data. Moreover, we present the SOSControl framework, which treats the available orientation symbols in the sparse SOS script as salient and prioritizes satisfying these constraints during motion generation. By incorporating SMS-based data augmentation and gradient-based iterative optimization, the framework enhances alignment with user-specified constraints. Additionally, it employs a ControlNet-based ACTOR-PAE Decoder to ensure smooth and natural motion outputs. Extensive experiments demonstrate that the SOS extraction pipeline generates human-interpretable scripts with symbolic annotations at salient keyframes, while the SOSControl framework outperforms existing baselines in motion quality, controllability, and generalizability with respect to motion timing and body part orientation control.
- Abstract(参考訳): 従来のテキスト・トゥ・モーション・フレームワークは正確な制御を欠くことが多く、既存のキーフレームの配置に基づくアプローチは位置指示のみを提供するため、身体部分の向きや動きのタイミングを指定するのが難しく、直感的ではない。
これらの制約に対処するために、キーフレームにおける身体部分の向きや動きのタイミングを指定するためのプログラム可能なシンボルフレームワークである、Salient Orientation Symbolic (SOS) スクリプトを紹介した。
さらに,フレームのサリエンシ検出に時間的に制約されたアグリメティブクラスタリングを利用する自動SOS抽出パイプラインと,動作データから直接スパースで解釈可能なSOSスクリプトを生成するサリエンシベースのマスキングスキーム(SMS)を提案する。
さらに,SOSControlフレームワークを提案する。このフレームワークは,スパースSOSスクリプトで利用可能な向きのシンボルを正常に扱い,動作生成時にこれらの制約を満たすことを優先する。
SMSベースのデータ拡張と勾配ベースの反復最適化を取り入れることで、このフレームワークはユーザ指定制約との整合性を高める。
さらに、コントロールネットベースのACTOR-PAEデコーダを使用して、スムーズで自然なモーション出力を保証する。
一方,SOSControlフレームワークは,動作タイミングや身体部位の向き制御に関して,動作品質,制御性,一般化性において,既存のベースラインを上回っている。
関連論文リスト
- Task-Oriented Data Synthesis and Control-Rectify Sampling for Remote Sensing Semantic Segmentation [13.370878496504458]
トレーニングデータ合成は、ラベル付きデータセットを拡張し、リモートセンシングにおける手動アノテーションを軽減するための有望な方法となっている。
セマンティックマスク制御の複雑さとサンプリング品質の不確実性は、下流セマンティックセグメンテーションタスクにおける合成データの有用性を制限することが多い。
本稿では,マルチモーダル拡散変換器(MM-DiT)と,タスクフィードバックによって誘導されるプラグアンドプレイサンプリング戦略を含む,タスク指向のデータ合成フレームワークを提案する。
提案手法は最先端の制御可能生成法を一貫して上回り,RSセマンティックセグメンテーションのためのより安定的でタスク指向の合成データを生成する。
論文 参考訳(メタデータ) (2025-12-18T16:37:39Z) - FineXtrol: Controllable Motion Generation via Fine-Grained Text [46.315592728110346]
FineXtrolは、時間的に認識され、正確で、ユーザフレンドリで、きめ細かいテキスト制御信号によってガイドされる、効率的なモーション生成のための新しいフレームワークである。
制御可能なモーション生成においてFineXtrolは高い性能を示す。
論文 参考訳(メタデータ) (2025-11-24T09:32:26Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Absolute Coordinates Make Motion Generation Easy [8.153961351540834]
最先端のテキスト・トゥ・モーション生成モデルは、HumanML3Dによって普及したキネマティック・アウェア、局所相対運動表現に依存している。
本稿では,大域空間における絶対的共同座標という,テキスト・トゥ・モーション生成の大幅な単純化と長期化の代替案を提案する。
論文 参考訳(メタデータ) (2025-05-26T00:36:00Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - TLControl: Trajectory and Language Control for Human Motion Synthesis [68.09806223962323]
本稿では,人間のリアルな動き合成のための新しい手法であるTLControlを提案する。
低レベルのTrajectoryと高レベルのLanguage semanticsコントロールが組み込まれている。
インタラクティブで高品質なアニメーション生成には実用的である。
論文 参考訳(メタデータ) (2023-11-28T18:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。