論文の概要: Video Analysis and Generation via a Semantic Progress Function
- arxiv url: http://arxiv.org/abs/2604.22554v1
- Date: Fri, 24 Apr 2026 13:48:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.480649
- Title: Video Analysis and Generation via a Semantic Progress Function
- Title(参考訳): セマンティックプログレス関数による映像解析と生成
- Authors: Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, Raja Giryes, Daniel Cohen-Or,
- Abstract要約: 与えられたシーケンスの意味が時間とともにどのように進化するかをキャプチャする一次元表現を導入する。
各フレームに対して、セマンティック埋め込み間の距離を計算し、シーケンス間の累積的なセマンティックシフトを反映する滑らかな曲線を適合させる。
この知見に基づいて,シーケンスをパラメータ化して意味変化を一定速度で展開する意味線形化手法を提案する。
- 参考スコア(独自算出の注目度): 75.07700965101854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformations produced by image and video generation models often evolve in a highly non-linear manner: long stretches where the content barely changes are followed by sudden, abrupt semantic jumps. To analyze and correct this behavior, we introduce a Semantic Progress Function, a one-dimensional representation that captures how the meaning of a given sequence evolves over time. For each frame, we compute distances between semantic embeddings and fit a smooth curve that reflects the cumulative semantic shift across the sequence. Departures of this curve from a straight line reveal uneven semantic pacing. Building on this insight, we propose a semantic linearization procedure that reparameterizes (or retimes) the sequence so that semantic change unfolds at a constant rate, yielding smoother and more coherent transitions. Beyond linearization, our framework provides a model-agnostic foundation for identifying temporal irregularities, comparing semantic pacing across different generators, and steering both generated and real-world video sequences toward arbitrary target pacing.
- Abstract(参考訳): 画像およびビデオ生成モデルによって生成された変換は、しばしば非常に非線形な方法で進化する:コンテンツがほとんど変化しない長いストレッチは、突然、突然のセマンティックジャンプによって続く。
この振る舞いを解析し、修正するために、与えられたシーケンスの意味が時間とともにどのように進化するかをキャプチャする1次元表現であるセマンティックプログレス関数(Semantic Progress Function)を導入する。
各フレームに対して、セマンティック埋め込み間の距離を計算し、シーケンス間の累積的なセマンティックシフトを反映する滑らかな曲線を適合させる。
この曲線を直線から分割すると、意味的な不均一なペーシングが明らかになる。
この知見に基づいて、意味変化が一定の速度で展開され、より滑らかで一貫性のある遷移をもたらすように、シーケンスを再パラメータ化(または再時間)する意味線形化手順を提案する。
線形化以外にも、我々のフレームワークは時間的不規則性を特定するためのモデルに依存しない基盤を提供し、異なるジェネレータ間のセマンティックペーシングを比較し、生成されたビデオシーケンスと実世界のビデオシーケンスの両方を任意のターゲットペーシングにステアリングする。
関連論文リスト
- Can Video Diffusion Models Predict Past Frames? Bidirectional Cycle Consistency for Reversible Interpolation [25.677744104220853]
ビデオフレームは、特定の動作セマンティクスに固執しながら、所定のエンドポイント間で現実的な中間フレームを合成することを目的としている。
本稿では,前向きと後向きの軌跡の対称性を強制する新しい双方向フレームワークを提案する。
本手法は,37フレームと73フレームの両方のタスクにおいて,画像品質,運動の滑らかさ,動的制御における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-02T06:58:46Z) - Scale-Consistent State-Space Dynamics via Fractal of Stationary Transformations [9.983526161001997]
最近のディープラーニングモデルは、中間表現の妥当性に関する構造的な保証なしに、ますます深度に依存している。
我々は、状態空間モデルのスケール一貫性潜在力学の構造的要件を定式化することにより、この制限に対処する。
我々は予測されたスケール一貫性の挙動を実証的に検証し、適応効率がアライメントされた潜在幾何学から現れることを示す。
論文 参考訳(メタデータ) (2026-01-27T12:44:20Z) - Towards Arbitrary Motion Completing via Hierarchical Continuous Representation [64.6525112550758]
Inlicit Representations(INR)に基づくNAMEと呼ばれる新しいパラメトリックアクティベーションによる階層的暗黙表現フレームワークを提案する。
本手法では,複数の時間スケールで動作列から特徴を抽出し,複雑な時間パターンを効果的に捕捉する階層的時間符号化機構を提案する。
論文 参考訳(メタデータ) (2025-12-24T14:07:04Z) - Kuramoto Orientation Diffusion Models [67.0711709825854]
指紋やテクスチャなどのオリエンテーションに富んだ画像は、しばしばコヒーレントな角模様を示す。
生体系における位相同期の役割を動機として,スコアベース生成モデルを提案する。
一般的な画像ベンチマークで競合する結果を実装し,指紋やテクスチャなどの指向性データセットの生成品質を大幅に向上する。
論文 参考訳(メタデータ) (2025-09-18T18:18:49Z) - Flow Equivariant Recurrent Neural Networks [2.900810893770134]
機械学習では、データの対称性を尊重するニューラルネットワークアーキテクチャを同変と呼ぶ。
我々は同変ネットワーク理論をこの流れの体系に拡張し、時間とともに自然変換を捉える。
これらのモデルは、トレーニング速度、長さの一般化、速度の一般化において、非同変モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-07-20T02:52:21Z) - WalkTheDog: Cross-Morphology Motion Alignment via Phase Manifolds [23.884105024013714]
本稿では,動きデータセットの周期構造と意味を理解するための新しいアプローチを提案する。
我々は,人間や犬などの複数の文字に対する共有位相多様体を,何の監督も受けずに学習する。
改良された動きマッチングフレームワークと組み合わせて、いくつかのアプリケーションにおいて、時間と意味のアライメントの多様体の能力を実証する。
論文 参考訳(メタデータ) (2024-07-11T09:31:05Z) - Modelling Latent Dynamics of StyleGAN using Neural ODEs [52.03496093312985]
我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
論文 参考訳(メタデータ) (2022-08-23T21:20:38Z) - A Differentiable Relaxation of Graph Segmentation and Alignment for AMR
Parsing [75.36126971685034]
我々は、アライメントとセグメンテーションをモデルの潜在変数として扱い、エンドツーエンドのトレーニングの一部としてそれらを誘導する。
また,AMRの個々の構造を扱うために手作りされたLyu2018AMRPAのセグメンテーションルールに依存するモデルにもアプローチした。
論文 参考訳(メタデータ) (2020-10-23T21:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。