論文の概要: STANCE: Motion Coherent Video Generation Via Sparse-to-Dense Anchored Encoding
- arxiv url: http://arxiv.org/abs/2510.14588v1
- Date: Thu, 16 Oct 2025 11:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.835562
- Title: STANCE: Motion Coherent Video Generation Via Sparse-to-Dense Anchored Encoding
- Title(参考訳): モーションコヒーレントな動画生成技術「STANCE」
- Authors: Zhifei Chen, Tianshuo Xu, Leyi Wu, Luozhou Wang, Dongyu Yan, Zihan You, Wenting Luo, Guo Zhang, Yingcong Chen,
- Abstract要約: 映像生成は近年目覚ましい進歩を遂げているが、コヒーレントな物体の動きと相互作用を維持することは依然として困難である。
両問題に2つの簡単なコンポーネントで対処する画像とビデオのフレームワークであるSTANCEを提示する。
- 参考スコア(独自算出の注目度): 31.38893861328115
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video generation has recently made striking visual progress, but maintaining coherent object motion and interactions remains difficult. We trace two practical bottlenecks: (i) human-provided motion hints (e.g., small 2D maps) often collapse to too few effective tokens after encoding, weakening guidance; and (ii) optimizing for appearance and motion in a single head can favor texture over temporal consistency. We present STANCE, an image-to-video framework that addresses both issues with two simple components. First, we introduce Instance Cues -- a pixel-aligned control signal that turns sparse, user-editable hints into a dense 2.5D (camera-relative) motion field by averaging per-instance flow and augmenting with monocular depth over the instance mask. This reduces depth ambiguity compared to 2D arrow inputs while remaining easy to use. Second, we preserve the salience of these cues in token space with Dense RoPE, which tags a small set of motion tokens (anchored on the first frame) with spatial-addressable rotary embeddings. Paired with joint RGB \(+\) auxiliary-map prediction (segmentation or depth), our model anchors structure while RGB handles appearance, stabilizing optimization and improving temporal coherence without requiring per-frame trajectory scripts.
- Abstract(参考訳): 映像生成は近年目覚ましい進歩を遂げているが、コヒーレントな物体の動きと相互作用を維持することは依然として困難である。
私たちは2つの現実的なボトルネックをたどる。
(i)人為的な動きのヒント(例えば、小さな2次元地図)は、符号化後、指示を弱めた後、有効トークンが少なくなったり、しばしば崩壊する。
(二)単一頭部における外観・動きの最適化は、時間的整合性よりもテクスチャを優先することができる。
両問題に2つの簡単なコンポーネントで対処する画像とビデオのフレームワークであるSTANCEを提示する。
まず、インスタンスごとの流れを平均化し、インスタンスマスク上の単眼深度を増大させることで、スパースでユーザ編集可能なヒントを2.5D(カメラ相対性)の高密度なモーションフィールドに変換する。
これにより2次元の矢印入力と比較して、使いやすさを維持しながら奥行きの曖昧さを低減できる。
第2に,Dense RoPE を用いたトークン空間におけるこれらのキューのサリエンスを保存し,空間適応可能な回転埋め込みを備えた小さな動きトークンのセット(第1フレームに記入)をタグ付けする。
連立RGB \(+\)補助写像予測(セグメンテーションまたは深さ)により、RGBが外観を処理し、最適化を安定化し、フレーム単位のトラジェクトリスクリプトを必要とせずに時間的コヒーレンスを改善しながら構造をアンカーする。
関連論文リスト
- In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [63.68181731564576]
Inbetween-2-4Dという,2枚のシングルビュー画像を補間する4次元(つまり3D + モーション)の生成問題を提案する。
テキストや1つの画像のみからの映像/4D生成とは対照的に、補間タスクはより正確なモーション制御を利用して生成をよりよく制約することができる。
論文 参考訳(メタデータ) (2025-04-11T09:01:09Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。