論文の概要: VisionTraj: A Noise-Robust Trajectory Recovery Framework based on
Large-scale Camera Network
- arxiv url: http://arxiv.org/abs/2312.06428v1
- Date: Mon, 11 Dec 2023 14:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:19:41.620718
- Title: VisionTraj: A Noise-Robust Trajectory Recovery Framework based on
Large-scale Camera Network
- Title(参考訳): VisionTraj: 大規模カメラネットワークに基づくノイズ・ロバスト軌道回復フレームワーク
- Authors: Zhishuai Li, Ziyue Li, Xiaoru Hu, Guoqing Du, Yunhao Nie, Feng Zhu,
Lei Bai, Rui Zhao
- Abstract要約: 都市全体のマルチカメラネットワークからのスナップショットに基づく軌道回復は、都市移動度検知とドライブウェイ最適化を容易にする。
本稿では,道路ネットワークカメラが記録したスナップショットから車両軌道を再構成する最初の学習モデルであるVisionTrajを提案する。
- 参考スコア(独自算出の注目度): 18.99662554949384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trajectory recovery based on the snapshots from the city-wide multi-camera
network facilitates urban mobility sensing and driveway optimization. The
state-of-the-art solutions devoted to such a vision-based scheme typically
incorporate predefined rules or unsupervised iterative feedback, struggling
with multi-fold challenges such as lack of open-source datasets for training
the whole pipeline, and the vulnerability to the noises from visual inputs. In
response to the dilemma, this paper proposes VisionTraj, the first
learning-based model that reconstructs vehicle trajectories from snapshots
recorded by road network cameras. Coupled with it, we elaborate on two rational
vision-trajectory datasets, which produce extensive trajectory data along with
corresponding visual snapshots, enabling supervised vision-trajectory interplay
extraction. Following the data creation, based on the results from the
off-the-shelf multi-modal vehicle clustering, we first re-formulate the
trajectory recovery problem as a generative task and introduce the canonical
Transformer as the autoregressive backbone. Then, to identify clustering noises
(e.g., false positives) with the bound on the snapshots' spatiotemporal
dependencies, a GCN-based soft-denoising module is conducted based on the fine-
and coarse-grained Re-ID clusters. Additionally, we harness strong semantic
information extracted from the tracklet to provide detailed insights into the
vehicle's entry and exit actions during trajectory recovery. The denoising and
tracklet components can also act as plug-and-play modules to boost baselines.
Experimental results on the two hand-crafted datasets show that the proposed
VisionTraj achieves a maximum +11.5% improvement against the sub-best model.
- Abstract(参考訳): 都市全体のマルチカメラネットワークのスナップショットに基づく軌道回復は、都市移動度センシングとドライブウェイ最適化を促進する。
このようなビジョンベースのスキームに特化した最先端のソリューションは、一般的に、事前定義されたルールや教師なしの反復的なフィードバック、パイプライン全体をトレーニングするためのオープンソースのデータセットの欠如、視覚入力からのノイズに対する脆弱性など、さまざまな課題に苦しめられている。
このジレンマに対応するために,道路ネットワークカメラが記録したスナップショットから車両軌道を再構成する最初の学習モデルであるVisionTrajを提案する。
これと合わせて2つの合理的な視覚軌跡データセットを詳述し、それに対応する視覚スナップショットとともに広範な軌跡データを生成し、教師付き視覚軌跡間抽出を可能にする。
データ作成に続いて,オフ・ザ・セットのマルチモーダル車両クラスタリングの結果に基づいて,まず軌道回復問題を生成課題として再定式化し,標準トランスフォーマーを自己回帰バックボーンとして導入する。
次に、スナップショットの時空間依存性に拘束されたクラスタリングノイズ(例えば偽陽性)を特定するために、粗いRe-IDクラスタに基づいてGCNベースのソフトデノーミングモジュールを実行する。
さらに,トラックレットから抽出した強い意味情報を利用して,軌道回復時の車両の進入行動や出口行動に関する詳細な知見を提供する。
ノイズやトラックレットコンポーネントは、ベースラインを増やすためのプラグアンドプレイモジュールとしても機能する。
2つの手作りデータセットの実験結果から、提案されたVisionTrajは、サブベストモデルに対して最大+11.5%の改善が達成されている。
関連論文リスト
- Re-Visible Dual-Domain Self-Supervised Deep Unfolding Network for MRI Reconstruction [48.30341580103962]
本稿では、これらの問題に対処するために、新しい再視覚的二重ドメイン自己教師型深層展開ネットワークを提案する。
エンド・ツー・エンドの再構築を実現するために,シャンブルとポック・プロキシ・ポイント・アルゴリズム(DUN-CP-PPA)に基づく深層展開ネットワークを設計する。
高速MRIおよびIXIデータセットを用いて行った実験により,本手法は再建性能において最先端の手法よりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2025-01-07T12:29:32Z) - DrivingForward: Feed-forward 3D Gaussian Splatting for Driving Scene Reconstruction from Flexible Surround-view Input [45.04354435388718]
フレキシブル・サラウンド・ビュー・インプットから運転シーンを再構成するフィードフォワードガウス・スプレイティング・モデルを提案する。
我々は、ポーズネットワーク、ディープネットワーク、およびガウスネットワークを共同でトレーニングし、運転シーンを表すプリミティブを予測する。
提案モデルでは,既存のフィードフォワードやシーン最適化の手法よりも再現性が高い。
論文 参考訳(メタデータ) (2024-09-19T13:16:04Z) - EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation [17.0226030258296]
2つの視野にわたる運転シーンにドライバーの注意を関連付けることは、クロスドメインな認識の問題である。
従来の手法は、通常、単一の視点に焦点を当てたり、推定された視線を通してシーンに注意を向ける。
エンド・ツー・エンドのシーン関連運転注意度推定手法であるEraWNetを提案する。
論文 参考訳(メタデータ) (2024-08-16T07:12:47Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Backbone is All Your Need: A Simplified Architecture for Visual Object
Tracking [69.08903927311283]
既存のトラッキングアプローチはカスタマイズされたサブモジュールに依存しており、アーキテクチャの選択に事前知識が必要である。
本稿では,コンバータバックボーンを用いた簡易なトラッキングアーキテクチャ(SimTrack)を提案する。
我々のSimTrackは、LaSOT/TNL2Kで2.5%/2.6%のAUCゲインでベースラインを改善し、ベルやホイッスルのない他の特殊な追跡アルゴリズムと競合する結果を得る。
論文 参考訳(メタデータ) (2022-03-10T12:20:58Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Transformer Meets Convolution: A Bilateral Awareness Net-work for
Semantic Segmentation of Very Fine Resolution Ur-ban Scene Images [6.460167724233707]
本稿では,依存経路とテクスチャパスを含む相互認知ネットワーク(BANet)を提案する。
BANetは、VFR画像の長距離関係と細かな詳細をキャプチャする。
3つの大規模都市景観画像セグメンテーションデータセット(ISPRS Vaihingen データセット、ISPRS Potsdam データセット、UAVid データセット)で実施された実験は、BANetの有効性を実証している。
論文 参考訳(メタデータ) (2021-06-23T13:57:36Z) - Multi-modal Scene-compliant User Intention Estimation for Navigation [1.9117798322548485]
本研究では,移動体操作時のユーザ意図分布生成フレームワークを提案する。
モデルは過去の観測された軌跡から学習し、視覚環境から派生した可視性情報を活用する。
実験は、オープンソースの都市運転シミュレータCARLA上に構築されたカスタム車椅子モデルを用いて収集されたデータセット上で行われた。
論文 参考訳(メタデータ) (2021-06-13T05:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。