論文の概要: CollideNet: Hierarchical Multi-scale Video Representation Learning with Disentanglement for Time-To-Collision Forecasting
- arxiv url: http://arxiv.org/abs/2604.16240v1
- Date: Fri, 17 Apr 2026 17:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.015951
- Title: CollideNet: Hierarchical Multi-scale Video Representation Learning with Disentanglement for Time-To-Collision Forecasting
- Title(参考訳): CollideNet: 時間対衝突予測のためのアンタングル付き階層型マルチスケールビデオ表現学習
- Authors: Nishq Poorav Desai, Ali Etemad, Michael Greenspan,
- Abstract要約: Time-to-Collision(TTC)予測は、衝突防止において重要な課題である。
コリドネットと呼ばれる新しい階層型トランスフォーマーアーキテクチャを導入する。
空間ストリームでは、ColrideNetは複数の解像度で各ビデオフレームに関する情報を同時に集約する。
- 参考スコア(独自算出の注目度): 32.71774009477647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Time-to-Collision (TTC) forecasting is a critical task in collision prevention, requiring precise temporal prediction and comprehending both local and global patterns encapsulated in a video, both spatially and temporally. To address the multi-scale nature of video, we introduce a novel spatiotemporal hierarchical transformer-based architecture called CollideNet, specifically catered for effective TTC forecasting. In the spatial stream, CollideNet aggregates information for each video frame simultaneously at multiple resolutions. In the temporal stream, along with multi-scale feature encoding, CollideNet also disentangles the non-stationarity, trend, and seasonality components. Our method achieves state-of-the-art performance in comparison to prior works on three commonly used public datasets, setting a new state-of-the-art by a considerable margin. We conduct cross-dataset evaluations to analyze the generalization capabilities of our method, and visualize the effects of disentanglement of the trend and seasonality components of the video data. We release our code at https://github.com/DeSinister/CollideNet/.
- Abstract(参考訳): 時間対衝突予測(TTC: Time-to-Collision forecasting)は、衝突防止において重要な課題であり、正確な時間的予測を必要とし、空間的にも時間的にもビデオ内にカプセル化された局所的パターンとグローバルなパターンの両方を解釈する。
ビデオのマルチスケールな性質に対処するため,新しい時空間階層型トランスフォーマーアーキテクチャであるColrideNetを導入する。
空間ストリームでは、ColrideNetは複数の解像度で各ビデオフレームに関する情報を同時に集約する。
時間的ストリームでは、マルチスケールの機能エンコーディングとともに、非定常性、トレンド、季節的なコンポーネントも切り離されている。
提案手法は,一般に使用されている3つの公開データセットに対する先行研究と比較して,最先端の性能を達成し,新たな最先端のデータセットをかなりのマージンで設定する。
本手法の一般化能力を解析し,映像データの傾向や季節成分のゆがみの影響を可視化するために,クロスデータセット評価を行う。
コードについてはhttps://github.com/DeSinister/CollideNet/.comで公開しています。
関連論文リスト
- StableDPT: Temporal Stable Monocular Video Depth Estimation [14.453483279783908]
本稿では,最新の画像ベース(深度)推定モデルをビデオ処理に適用する手法を提案する。
我々のアーキテクチャは、市販のViTエンコーダ上に構築され、Dense Prediction Transformer (DPT) ヘッドが強化されている。
複数のベンチマークデータセットに対する評価では、リアルタイムシナリオにおける時間的一貫性の向上、最先端のパフォーマンスの競争力、および上位2倍高速な処理が示されている。
論文 参考訳(メタデータ) (2026-01-06T08:02:14Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training [31.115226660100294]
本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
論文 参考訳(メタデータ) (2022-06-17T14:29:51Z) - Adaptive graph convolutional networks for weakly supervised anomaly
detection in videos [42.3118758940767]
本稿では,映像セグメント間のコンテキスト関係をモデル化するために,弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。
各セグメントの異常確率スコアを生成する際に、他のビデオセグメントが現在のセグメントに与える影響を十分に検討する。
論文 参考訳(メタデータ) (2022-02-14T06:31:34Z) - Temporal-attentive Covariance Pooling Networks for Video Recognition [52.853765492522655]
既存のビデオアーキテクチャは、通常、単純なグローバル平均プール法(GAP)を用いてグローバル表現を生成する。
本稿では,深いアーキテクチャの端に挿入される減衰共分散プーリング(TCP-TCP)を提案する。
我々のTCPはモデルに依存しないため、任意のビデオアーキテクチャに柔軟に統合できるため、効果的なビデオ認識のためのTCPNetとなる。
論文 参考訳(メタデータ) (2021-10-27T12:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。