論文の概要: LongShortNet: Exploring Temporal and Semantic Features Fusion in
Streaming Perception
- arxiv url: http://arxiv.org/abs/2210.15518v3
- Date: Mon, 27 Mar 2023 02:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 02:09:36.523826
- Title: LongShortNet: Exploring Temporal and Semantic Features Fusion in
Streaming Perception
- Title(参考訳): LongShortNet: ストリーミング知覚における時間的特徴と意味的特徴の融合を探る
- Authors: Chenyang Li, Zhi-Qi Cheng, Jun-Yan He, Pengyu Li, Bin Luo, Han-Yuan
Chen, Yifeng Geng, Jin-Peng Lan, Xuansong Xie
- Abstract要約: LongShortNetは、長期の時間的動きを捉え、それをリアルタイム知覚のための短期空間意味論と統合する新しいデュアルパスネットワークである。
我々は、Argoverse-HDデータセット上でLongShortNetを評価し、既存の最先端手法よりも計算コストがほとんどないことを示す。
- 参考スコア(独自算出の注目度): 25.75701807282323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming perception is a fundamental task in autonomous driving that
requires a careful balance between the latency and accuracy of the autopilot
system. However, current methods for streaming perception are limited as they
rely only on the current and adjacent two frames to learn movement patterns,
which restricts their ability to model complex scenes, often leading to poor
detection results. To address this limitation, we propose LongShortNet, a novel
dual-path network that captures long-term temporal motion and integrates it
with short-term spatial semantics for real-time perception. Our proposed
LongShortNet is notable as it is the first work to extend long-term temporal
modeling to streaming perception, enabling spatiotemporal feature fusion. We
evaluate LongShortNet on the challenging Argoverse-HD dataset and demonstrate
that it outperforms existing state-of-the-art methods with almost no additional
computational cost.
- Abstract(参考訳): ストリーミング知覚は、自動操縦システムのレイテンシと正確性の間に注意深いバランスを必要とする自律運転の基本的なタスクである。
しかし、現在のストリーミング知覚法は、現在の2フレームと隣接する2フレームにのみ依存して、複雑なシーンをモデル化する能力を制限する動きパターンを学習するため、しばしば検出結果の低下につながるため、制限されている。
この制限に対処するために,長期時間運動をキャプチャし,リアルタイム知覚のための短期空間意味論と統合する,新しいデュアルパスネットワークであるlong shortnetを提案する。
提案するlong shortnetは,長期時間モデリングをストリーミング知覚に拡張し,時空間的特徴融合を実現する最初の試みである。
我々は、Argoverse-HDデータセット上でLongShortNetを評価し、既存の最先端手法よりも計算コストがほとんどないことを示す。
関連論文リスト
- A Mixture of Experts Approach to 3D Human Motion Prediction [1.4974445469089412]
本研究は,Au-Tonomous Vehicle Motion Detectionなどのアプリケーションにとって重要な領域である,人間の動作予測の課題に対処する。
私たちの主な目的は、既存のモデルar-tectureを批判的に評価し、その利点と改善の機会を特定することです。
これは完全に微分可能なスパーストランスであり、推論コストの低いモデルキャパシティを有効にする有望な能力を示している。
論文 参考訳(メタデータ) (2024-05-09T20:26:58Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving [27.14089002387224]
本稿では,ストリーミング知覚のための最適化されたフレームワークであるDAMO-StreamNetを提案する。
このフレームワークは、最近のYOLOシリーズの進歩と、空間的および時間的知覚機構の包括的分析を組み合わせたものである。
実験の結果,DAMO-StreamNetは既存の最先端手法を超え,37.8%(正規サイズ600,960)と43.3%(大規模サイズ1200,1920)のsAPを達成した。
論文 参考訳(メタデータ) (2023-03-30T04:34:31Z) - MotionTrack: Learning Robust Short-term and Long-term Motions for
Multi-Object Tracking [56.92165669843006]
本研究では,短時間から長期間の軌跡を関連づける統合フレームワークで,堅牢な短期・長期動作を学習するMotionTrackを提案する。
密集した群集に対して,各ターゲットの複雑な動きを推定できる,短時間の軌跡から相互作用認識動作を学習するための新しい対話モジュールを設計する。
極端なオクルージョンのために、ターゲットの履歴軌跡から信頼できる長期動作を学習するための新しいRefind Moduleを構築し、中断された軌跡とそれに対応する検出とを関連付けることができる。
論文 参考訳(メタデータ) (2023-03-18T12:38:33Z) - PDFormer: Propagation Delay-Aware Dynamic Long-Range Transformer for
Traffic Flow Prediction [78.05103666987655]
空間時空間グラフニューラルネットワーク(GNN)モデルは、この問題を解決する最も有望な方法の1つである。
本稿では,交通流の正確な予測を行うために,遅延を意識した動的長距離トランスフォーマー(PDFormer)を提案する。
提案手法は,最先端の性能を達成するだけでなく,計算効率の競争力も発揮できる。
論文 参考訳(メタデータ) (2023-01-19T08:42:40Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - LSTA-Net: Long short-term Spatio-Temporal Aggregation Network for
Skeleton-based Action Recognition [14.078419675904446]
LSTA-Net(英語版) - 新しい短期時空間ネットワーク。
時間的・短期的な情報は、既存の作品ではよく調べられていない。
3つの公開ベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-11-01T10:53:35Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。