論文の概要: Transtreaming: Adaptive Delay-aware Transformer for Real-time Streaming Perception
- arxiv url: http://arxiv.org/abs/2409.06584v1
- Date: Tue, 10 Sep 2024 15:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 16:59:09.671176
- Title: Transtreaming: Adaptive Delay-aware Transformer for Real-time Streaming Perception
- Title(参考訳): Transtreaming: リアルタイムストリーミング認識のための適応型遅延認識変換器
- Authors: Xiang Zhang, Yufei Cui, Chenchen Fu, Weiwei Wu, Zihao Wang, Yuyang Sun, Xue Liu,
- Abstract要約: 本研究は,動的計算遅延を伴うリアルタイム物体検出の課題に対処する,革新的なリアルタイムストリーミング認識手法であるTranstreamingを提案する。
提案モデルは,単一フレーム検出シナリオにおいても,既存の最先端手法よりも優れている。
Transtreamingは、あらゆる種類のデバイスにおける厳格なリアルタイム処理要件を満たす。
- 参考スコア(独自算出の注目度): 18.403242474776764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time object detection is critical for the decision-making process for many real-world applications, such as collision avoidance and path planning in autonomous driving. This work presents an innovative real-time streaming perception method, Transtreaming, which addresses the challenge of real-time object detection with dynamic computational delay. The core innovation of Transtreaming lies in its adaptive delay-aware transformer, which can concurrently predict multiple future frames and select the output that best matches the real-world present time, compensating for any system-induced computation delays. The proposed model outperforms the existing state-of-the-art methods, even in single-frame detection scenarios, by leveraging a transformer-based methodology. It demonstrates robust performance across a range of devices, from powerful V100 to modest 2080Ti, achieving the highest level of perceptual accuracy on all platforms. Unlike most state-of-the-art methods that struggle to complete computation within a single frame on less powerful devices, Transtreaming meets the stringent real-time processing requirements on all kinds of devices. The experimental results emphasize the system's adaptability and its potential to significantly improve the safety and reliability for many real-world systems, such as autonomous driving.
- Abstract(参考訳): リアルタイム物体検出は、衝突回避や自律運転における経路計画など、現実の多くのアプリケーションにおける意思決定プロセスにおいて重要である。
本研究は,動的計算遅延を伴うリアルタイム物体検出の課題に対処する,革新的なリアルタイムストリーミング認識手法であるTranstreamingを提案する。
Transtreamingの中核となるイノベーションは、適応遅延認識変換器(adaptive delay-aware transformer)にある。これは、複数の将来のフレームを同時に予測し、実際の時間に最適な出力を選択し、システムによって引き起こされる計算遅延を補償する。
提案モデルでは,トランスフォーマーに基づく手法を用いることで,単一フレーム検出シナリオにおいても,既存の最先端手法よりも優れる。
強力なV100から控えめな2080Tiまで、さまざまなデバイスで堅牢なパフォーマンスを示し、すべてのプラットフォームで最高の知覚精度を実現している。
パワフルでないデバイス上で単一のフレーム内で計算を完了するのに苦労する、最先端のほとんどの方法とは異なり、Transtreamingはあらゆる種類のデバイスにおいて、厳格なリアルタイム処理要件を満たす。
実験の結果は、自律運転のような現実世界の多くのシステムの安全性と信頼性を著しく向上させるシステムの適応性とその可能性を強調した。
関連論文リスト
- Event-Aided Time-to-Collision Estimation for Autonomous Driving [28.13397992839372]
ニューロモルフィックなイベントベースカメラを用いて衝突時刻を推定する新しい手法を提案する。
提案アルゴリズムは, 事象データに適合する幾何モデルに対して, 効率的かつ高精度な2段階のアプローチで構成する。
合成データと実データの両方の実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-10T02:37:36Z) - Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for
Distracted Driver Action Recognition [8.841708075914353]
運転行動の時間的局所化は、先進的な運転支援システムと自然主義運転研究にとって重要である。
本研究では,映像行動認識と2次元人文推定ネットワークを1つのモデルに適用することにより,時間的局所化と分類精度の向上を目指す。
このモデルは、2023年のNVIDIA AI City ChallengeというA2テストセットで、自然な運転行動認識のためにうまく機能する。
論文 参考訳(メタデータ) (2024-03-11T10:26:38Z) - MTD: Multi-Timestep Detector for Delayed Streaming Perception [0.5439020425819]
ストリーミング知覚は、自律運転システムの遅延と精度を評価するために使用される、世界の現在の状態を報告するタスクである。
本稿では,マルチブランチ将来の予測に動的ルーティングを利用するエンドツーエンド検出器MTDを提案する。
提案手法はArgoverse-HDデータセットを用いて評価され,実験結果から,様々な遅延設定における最先端性能が得られたことが示された。
論文 参考訳(メタデータ) (2023-09-13T06:23:58Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - Real-time Streaming Perception System for Autonomous Driving [2.6058660721533187]
本稿では,ストリーミング知覚チャレンジの第2位であるリアルタイム蒸気知覚システムについて述べる。
絶対的なパフォーマンスに重点を置いている従来のオブジェクト検出の課題とは異なり、ストリーミング認識タスクは精度とレイテンシのバランスを取る必要がある。
Argoverse-HDテストセットでは,必要なハードウェアで33.2ストリーミングAP(オーガナイザが検証した34.6ストリーミングAP)を実現する。
論文 参考訳(メタデータ) (2021-07-30T01:32:44Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。