論文の概要: TIE: Time Interval Encoding for Video Generation over Events
- arxiv url: http://arxiv.org/abs/2605.10543v1
- Date: Mon, 11 May 2026 13:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.84374
- Title: TIE: Time Interval Encoding for Video Generation over Events
- Title(参考訳): TIE:イベントによるビデオ生成のための時間間隔符号化
- Authors: Zhilei Shu, Shangwen Zhu, Zihang Liang, Xiaofan Li, Qianyu Peng, Xinyu Cui, Bo Ye, Yiming Li, Fan Cheng, Jian Zhao, Yang Cao, Zheng-Jun Zha, Ruili Feng,
- Abstract要約: ディレクタースタイルのプロンプト、ロボットアクション予測、インタラクティブなビデオエージェントは、同時イベントに対する時間的根拠を要求する。
現代のビデオジェネレータは、ポイントワイドな位置エンコーディングを通して、タイムを離散的なポイントとして表現する。
Time Interval TIEは、プラグイン・アンド・プレイ・インターバル・アウェアの一般化である。
- 参考スコア(独自算出の注目度): 50.66585165263848
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Director-style prompting, robotic action prediction, and interactive video agents demand temporal grounding over concurrent events -- a regime in which 68% of general clips and over 99% of robotics/gameplay clips contain overlapping events, yet existing multi-event generators rest on a single-active-prompt assumption. However, modern video generators, such as Diffusion Transformers (DiT), represent time as discrete points through point-wise positional encodings. This formulation creates a fundamental dimension mismatch: temporally extended intervals and overlapping events are mathematically unrepresentable to the attention mechanism. In this paper, we propose Time Interval Encoding (TIE), a principled, plug-and-play interval-aware generalization of rotary embeddings that elevates time intervals to first-class primitives inside DiT cross-attention. Rather than introducing another heuristic interval embedding, we show that, within RoPE-compatible bilinear attention, TIE is characterized by two basic principles: Temporal Integrability, which requires an event to aggregate positional evidence over its full duration, and Duration Invariance, which removes the trivial bias toward longer intervals. Under a uniform kernel, this characterization yields an efficient closed-form sinc-based solution that preserves the standard attention interface and naturally attenuates boundary noise through interval integration. Empirically, TIE preserves the visual quality of the base DiT model while substantially improving temporal controllability. In our experiments on the OmniEvents dataset, it improves human-verified Temporal Constraint Satisfaction Rate from 77.34% to 96.03% and reduces temporal boundary error from 0.261s to 0.073s, while also improving trajectory-level temporal alignment metrics. The code and dataset are available at https://github.com/MatrixTeam-AI/TIE.
- Abstract(参考訳): ディレクタースタイルのプロンプト、ロボットアクション予測、インタラクティブなビデオエージェントは、同時イベントに対して時間的根拠を要求する。一般的なクリップの68%と、ロボット/ゲームプレイクリップの99%が重複イベントを含んでいるが、既存のマルチイベントジェネレータは、単一のアクティブ・プロンプトの仮定に基づいている。
しかし、Diffusion Transformers (DiT) のような現代のビデオジェネレータは、時刻をポイントワイドな位置符号化によって離散的なポイントとして表現している。
この定式化は基本的な次元のミスマッチを生成する: 時間的に延長された間隔と重複する事象は、数学的に注意機構に表現できない。
本稿では, 時間間隔をDiTクロスアテンション内の第一級プリミティブに高める回転埋め込みの, プラグ・アンド・プレイ・インターバル・エンコーディング(TIE)を提案する。
他のヒューリスティック区間の埋め込みを導入するのではなく、RoPE互換の双線形の注意の中で、TIEは時間的積分性(TIE)と時間的不変性(Duration Invariance)という2つの基本原理によって特徴づけられる。
均一なカーネルの下では、この特性は、標準の注意インタフェースを保ち、インターバル積分を通して境界ノイズを自然に減衰する効率的な閉形式 sinc ベースのソリューションをもたらす。
経験的に、TIEは、時間的制御性を大幅に改善しつつ、ベースDiTモデルの視覚的品質を保っている。
OmniEventsデータセットの実験では、人間の検証された時間制約満足度を77.34%から96.03%に改善し、時間境界誤差を0.261sから0.073sに低減し、軌道レベルの時間アライメント指標も改善した。
コードとデータセットはhttps://github.com/MatrixTeam-AI/TIEで公開されている。
関連論文リスト
- Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series [38.229225431387015]
STructure-AwaRe (STAR) Set Transformer における事前の復元方法を示す。
3つのICU予測タスクにおいて、STAR-SetはAUC/APRが0.7158/0.0026(CPR)、0.9164/0.2033(死)、0.8373/0.1258(血管圧使用)を達成する。
論文 参考訳(メタデータ) (2026-02-18T12:03:09Z) - TIMERIPPLE: Accelerating vDiTs by Understanding the Spatio-Temporal Correlations in Latent Space [15.535854202219072]
本稿では,vDiTsにおける自己注意の促進を,潜在空間における時間的再利用の相関を利用して行う。
また,vDiT内の注意パターンは,主にトークンチャネルレベルでの空間的・時間的相関が支配的であることが示唆された。
本稿では,個別チャネルに沿った部分的注意スコアを空間的あるいは時間的に相関したトークンに再利用することにより,注意計算を近似する軽量かつ適応的な戦略を提案する。
論文 参考訳(メタデータ) (2025-11-15T05:07:31Z) - STaTS: Structure-Aware Temporal Sequence Summarization via Statistical Window Merging [7.085954928597584]
時系列データは、しばしば遅延時間構造、局所定常状態間の遷移、繰り返しモチーフ、変動のバーストを含む。
本稿では,Structure-Aware Temporal Summarizationのための軽量で教師なしのフレームワークSTaTSを提案する。
論文 参考訳(メタデータ) (2025-10-10T17:51:47Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - PASS: Path-selective State Space Model for Event-based Recognition [12.651829415097758]
イベントカメラは、高時間分解能などの利点を持つバイオインスパイアされたセンサーである。
当社のPASSフレームワークは,高次イベントモデリングに優れた能力を示す。
私たちの重要な洞察は、状態空間モデルを通じて適応的に符号化されたイベント機能を学ぶことです。
論文 参考訳(メタデータ) (2024-09-25T14:08:37Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。
本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。
本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:05:51Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。