論文の概要: Infinite Gaze Generation for Videos with Autoregressive Diffusion
- arxiv url: http://arxiv.org/abs/2603.24938v1
- Date: Thu, 26 Mar 2026 02:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.047476
- Title: Infinite Gaze Generation for Videos with Autoregressive Diffusion
- Title(参考訳): 自己回帰拡散映像の無限注視生成
- Authors: Jenna Kang, Colin Groth, Tong Wu, Finley Torrens, Patsorn Sangkloy, Gordon Wetzstein, Qi Sun,
- Abstract要約: 任意の長さのビデオにおいて、無限水平視線予測のための生成フレームワークを提案する。
自己回帰拡散モデルを用いて、連続的な空間座標と高分解能タイムスタンプを特徴とする視線軌跡を合成する。
- 参考スコア(独自算出の注目度): 37.82819999198602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting human gaze in video is fundamental to advancing scene understanding and multimodal interaction. While traditional saliency maps provide spatial probability distributions and scanpaths offer ordered fixations, both abstractions often collapse the fine-grained temporal dynamics of raw gaze. Furthermore, existing models are typically constrained to short-term windows ($\approx$ 3-5s), failing to capture the long-range behavioral dependencies inherent in real-world content. We present a generative framework for infinite-horizon raw gaze prediction in videos of arbitrary length. By leveraging an autoregressive diffusion model, we synthesize gaze trajectories characterized by continuous spatial coordinates and high-resolution timestamps. Our model is conditioned on a saliency-aware visual latent space. Quantitative and qualitative evaluations demonstrate that our approach significantly outperforms existing approaches in long-range spatio-temporal accuracy and trajectory realism.
- Abstract(参考訳): 映像における人間の視線予測は、シーン理解とマルチモーダルインタラクションの促進に不可欠である。
伝統的なサリエンシマップは空間確率分布を提供し、スキャンパスは順序づけられた固定を提供するが、どちらの抽象化も生の目視の微細な時間的ダイナミクスを崩壊させることが多い。
さらに、既存のモデルは、通常、短期的なウィンドウ($3-5s)に制約される。
任意の長さのビデオにおいて、無限水平視線予測のための生成フレームワークを提案する。
自己回帰拡散モデルを用いて、連続的な空間座標と高分解能タイムスタンプを特徴とする視線軌跡を合成する。
当社のモデルは、サリエンシを意識した視覚的潜伏空間に設定されている。
定量的および定性的な評価は,提案手法が長期時空間精度と軌跡リアリズムにおいて既存手法を著しく上回っていることを示す。
関連論文リスト
- Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。
本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。
そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-12-19T15:15:58Z) - RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - StateSpaceDiffuser: Bringing Long Context to Diffusion World Models [52.92249035412797]
本稿では、状態空間モデルから機能を統合することで、拡散モデルが長時間コンテキストタスクの実行を可能にするStateSpaceDiffuserを紹介する。
この設計は拡散モデルの高忠実性合成を保ちながら長期記憶を復元する。
論文 参考訳(メタデータ) (2025-05-28T11:27:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。