論文の概要: Layout Sequence Prediction From Noisy Mobile Modality
- arxiv url: http://arxiv.org/abs/2310.06138v1
- Date: Mon, 9 Oct 2023 20:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 21:35:51.440101
- Title: Layout Sequence Prediction From Noisy Mobile Modality
- Title(参考訳): 雑音移動モードからのレイアウトシーケンス予測
- Authors: Haichao Zhang, Yi Xu, Hongsheng Lu, Takayuki Shimizu, Yun Fu
- Abstract要約: 軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
- 参考スコア(独自算出の注目度): 53.49649231056857
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Trajectory prediction plays a vital role in understanding pedestrian movement
for applications such as autonomous driving and robotics. Current trajectory
prediction models depend on long, complete, and accurately observed sequences
from visual modalities. Nevertheless, real-world situations often involve
obstructed cameras, missed objects, or objects out of sight due to
environmental factors, leading to incomplete or noisy trajectories. To overcome
these limitations, we propose LTrajDiff, a novel approach that treats objects
obstructed or out of sight as equally important as those with fully visible
trajectories. LTrajDiff utilizes sensor data from mobile phones to surmount
out-of-sight constraints, albeit introducing new challenges such as modality
fusion, noisy data, and the absence of spatial layout and object size
information. We employ a denoising diffusion model to predict precise layout
sequences from noisy mobile data using a coarse-to-fine diffusion strategy,
incorporating the RMS, Siamese Masked Encoding Module, and MFM. Our model
predicts layout sequences by implicitly inferring object size and projection
status from a single reference timestamp or significantly obstructed sequences.
Achieving SOTA results in randomly obstructed experiments and extremely short
input experiments, our model illustrates the effectiveness of leveraging noisy
mobile data. In summary, our approach offers a promising solution to the
challenges faced by layout sequence and trajectory prediction models in
real-world settings, paving the way for utilizing sensor data from mobile
phones to accurately predict pedestrian bounding box trajectories. To the best
of our knowledge, this is the first work that addresses severely obstructed and
extremely short layout sequences by combining vision with noisy mobile
modality, making it the pioneering work in the field of layout sequence
trajectory prediction.
- Abstract(参考訳): 軌道予測は、自律走行やロボット工学などの応用のための歩行者運動を理解する上で重要な役割を果たす。
現在の軌道予測モデルは、視覚モダリティから長く、完全で、正確に観測されたシーケンスに依存する。
それにもかかわらず、現実世界の状況は、しばしば障害物カメラ、見逃された物体、または環境要因によって見えない物体を伴い、不完全または騒々しい軌道に繋がる。
これらの制約を克服するために, LTrajDiffを提案する。
LTrajDiffは携帯電話からのセンサデータを使用して、モダリティ融合、ノイズデータ、空間的レイアウトやオブジェクトサイズ情報の欠如など、新たな課題を導入している。
rms, siamese masked encoding module, mfmを組み込んだ細かな拡散戦略を用いて, ノイズの多い移動データから正確なレイアウトシーケンスを予測する。
本モデルでは,単一の参照タイムスタンプからオブジェクトサイズと投影状態を暗黙的に推定し,レイアウトシーケンスを予測する。
SOTAはランダムに障害のある実験と極めて短い入力実験を行い、ノイズの多いモバイルデータを活用する効果を示す。
要約すると、このアプローチは、リアルタイム設定におけるレイアウトシーケンスと軌道予測モデルが直面する課題に対する有望な解決策を提供し、携帯電話からのセンサデータを利用して歩行者境界ボックスの軌跡を正確に予測する方法を提供する。
私たちの知る限りでは、視覚とノイズの多いモバイルモダリティを組み合わせた極めて短いレイアウトシーケンスに対処する最初の作業であり、レイアウトシーケンスの軌道予測の分野における先駆的な仕事である。
関連論文リスト
- OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - MSTF: Multiscale Transformer for Incomplete Trajectory Prediction [30.152217860860464]
本稿では,不完全な軌道予測のためのエンドツーエンドフレームワークであるMultiscale Transformer(MSTF)を提案する。
MSTFは、Multiscale Attention Head (MAH)とInformation Increment-based Pattern Adaptive (IIPA)モジュールを統合している。
2つの大規模実世界のデータセットを用いて提案したMSTFモデルを評価する。
論文 参考訳(メタデータ) (2024-07-08T07:10:17Z) - OOSTraj: Out-of-Sight Trajectory Prediction With Vision-Positioning Denoising [49.86409475232849]
軌道予測はコンピュータビジョンと自律運転の基本である。
この分野における既存のアプローチは、しばしば正確で完全な観測データを仮定する。
本稿では,視覚的位置決め技術を利用した視線外軌道予測手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T18:30:29Z) - Controllable Diverse Sampling for Diffusion Based Motion Behavior
Forecasting [11.106812447960186]
制御可能拡散軌道(CDT)と呼ばれる新しい軌道生成器を導入する。
CDTは、情報と社会的相互作用をトランスフォーマーに基づく条件記述拡散モデルに統合し、将来の軌跡の予測を導く。
マルチモーダル性を確保するため,直進,右折,左折などの軌道モードを指示する行動トークンを組み込んだ。
論文 参考訳(メタデータ) (2024-02-06T13:16:54Z) - Implicit Occupancy Flow Fields for Perception and Prediction in
Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。
既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。
これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文 参考訳(メタデータ) (2023-08-02T23:39:24Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - PDFormer: Propagation Delay-Aware Dynamic Long-Range Transformer for
Traffic Flow Prediction [78.05103666987655]
空間時空間グラフニューラルネットワーク(GNN)モデルは、この問題を解決する最も有望な方法の1つである。
本稿では,交通流の正確な予測を行うために,遅延を意識した動的長距離トランスフォーマー(PDFormer)を提案する。
提案手法は,最先端の性能を達成するだけでなく,計算効率の競争力も発揮できる。
論文 参考訳(メタデータ) (2023-01-19T08:42:40Z) - MissFormer: (In-)attention-based handling of missing observations for
trajectory filtering and prediction [11.241614693184323]
本稿では,変圧器を用いた可変長軌跡データにおける欠測の処理手法を提案する。
欠落したトークン、バイナリエンコードされた欠落したイベントを提供することで、モデルは欠落したデータに at-attend することを学び、残りの入力に条件付けられた完全な軌跡を推測する。
論文 参考訳(メタデータ) (2021-06-30T12:12:52Z) - Ellipse Loss for Scene-Compliant Motion Prediction [12.446392441065065]
本研究では,シーンコンプライアンスをよりよく推論し,より現実的な軌跡を予測できる新しい楕円損失を提案する。
楕円損失は、出力軌跡をトップダウンマップフレームに投影することにより、教師付き方法でオフロード予測を直接ペナルティ化する。
アクターの寸法と方向を考慮に入れ、モデルにより直接的なトレーニング信号を提供する。
論文 参考訳(メタデータ) (2020-11-05T23:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。