論文の概要: LongShortNet: Exploring Temporal and Semantic Features Fusion in
Streaming Perception
- arxiv url: http://arxiv.org/abs/2210.15518v1
- Date: Thu, 27 Oct 2022 14:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:18:04.855817
- Title: LongShortNet: Exploring Temporal and Semantic Features Fusion in
Streaming Perception
- Title(参考訳): LongShortNet: ストリーミング知覚における時間的特徴と意味的特徴の融合を探る
- Authors: Chenyang Li, Zhi-Qi Cheng, Jun-Yan He, Pengyu Li, Bin Luo, Han-Yuan
Chen, Yifeng Geng, Jin-Peng Lan, Xuansong Xie
- Abstract要約: 本稿では,LongShortNetと呼ばれるエンドツーエンドのデュアルパスネットワークを提案する。
提案したLongShortNetをベンチマークデータセットArgoverse-HDの既存手法と比較した。
- 参考スコア(独自算出の注目度): 25.75701807282323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming perception is a task of reporting the current state of autonomous
driving, which coherently considers the latency and accuracy of autopilot
systems. However, the existing streaming perception only uses the current and
adjacent two frames as input for learning the movement patterns, which cannot
model actual complex scenes, resulting in failed detection results. To solve
this problem, we propose an end-to-end dual-path network dubbed LongShortNet,
which captures long-term temporal motion and calibrates it with short-term
spatial semantics for real-time perception. Moreover, we investigate a
Long-Short Fusion Module (LSFM) to explore spatiotemporal feature fusion, which
is the first work to extend long-term temporal in streaming perception. We
evaluate the proposed LongShortNet and compare it with existing methods on the
benchmark dataset Argoverse-HD. The results demonstrate that the proposed
LongShortNet outperforms the other state-of-the-art methods with almost no
extra computational cost.
- Abstract(参考訳): ストリーミング知覚は、自動操縦システムのレイテンシと精度をコヒーレントに考慮した、自律運転の現状を報告するタスクである。
しかし、既存のストリーミング知覚は、現在の2フレームと隣接する2フレームのみを使用して、実際の複雑なシーンをモデル化できない動きパターンを学習する。
この問題を解決するために、LongShortNetと呼ばれるエンドツーエンドのデュアルパスネットワークを提案する。
さらに, 長短核融合モジュール (LSFM) を用いて時空間的特徴融合を探索し, ストリーミング知覚における時間的長期化を初めて行った。
提案したLongShortNetを評価し,ベンチマークデータセットArgoverse-HDの既存手法と比較した。
その結果,提案したLongShortNetは,他の最先端手法よりも計算コストが低い。
関連論文リスト
- A Mixture of Experts Approach to 3D Human Motion Prediction [1.4974445469089412]
本研究は,Au-Tonomous Vehicle Motion Detectionなどのアプリケーションにとって重要な領域である,人間の動作予測の課題に対処する。
私たちの主な目的は、既存のモデルar-tectureを批判的に評価し、その利点と改善の機会を特定することです。
これは完全に微分可能なスパーストランスであり、推論コストの低いモデルキャパシティを有効にする有望な能力を示している。
論文 参考訳(メタデータ) (2024-05-09T20:26:58Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving [27.14089002387224]
本稿では,ストリーミング知覚のための最適化されたフレームワークであるDAMO-StreamNetを提案する。
このフレームワークは、最近のYOLOシリーズの進歩と、空間的および時間的知覚機構の包括的分析を組み合わせたものである。
実験の結果,DAMO-StreamNetは既存の最先端手法を超え,37.8%(正規サイズ600,960)と43.3%(大規模サイズ1200,1920)のsAPを達成した。
論文 参考訳(メタデータ) (2023-03-30T04:34:31Z) - MotionTrack: Learning Robust Short-term and Long-term Motions for
Multi-Object Tracking [56.92165669843006]
本研究では,短時間から長期間の軌跡を関連づける統合フレームワークで,堅牢な短期・長期動作を学習するMotionTrackを提案する。
密集した群集に対して,各ターゲットの複雑な動きを推定できる,短時間の軌跡から相互作用認識動作を学習するための新しい対話モジュールを設計する。
極端なオクルージョンのために、ターゲットの履歴軌跡から信頼できる長期動作を学習するための新しいRefind Moduleを構築し、中断された軌跡とそれに対応する検出とを関連付けることができる。
論文 参考訳(メタデータ) (2023-03-18T12:38:33Z) - PDFormer: Propagation Delay-Aware Dynamic Long-Range Transformer for
Traffic Flow Prediction [78.05103666987655]
空間時空間グラフニューラルネットワーク(GNN)モデルは、この問題を解決する最も有望な方法の1つである。
本稿では,交通流の正確な予測を行うために,遅延を意識した動的長距離トランスフォーマー(PDFormer)を提案する。
提案手法は,最先端の性能を達成するだけでなく,計算効率の競争力も発揮できる。
論文 参考訳(メタデータ) (2023-01-19T08:42:40Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - LSTA-Net: Long short-term Spatio-Temporal Aggregation Network for
Skeleton-based Action Recognition [14.078419675904446]
LSTA-Net(英語版) - 新しい短期時空間ネットワーク。
時間的・短期的な情報は、既存の作品ではよく調べられていない。
3つの公開ベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-11-01T10:53:35Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。