論文の概要: MASAR: Motion-Appearance Synergy Refinement for Joint Detection and Trajectory Forecasting
- arxiv url: http://arxiv.org/abs/2602.13003v1
- Date: Fri, 13 Feb 2026 15:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.999603
- Title: MASAR: Motion-Appearance Synergy Refinement for Joint Detection and Trajectory Forecasting
- Title(参考訳): MASAR: 関節検出と軌道予測のための運動提示相乗効果の微細化
- Authors: Mohammed Amine Bencheikh Lehocine, Julian Schmidt, Frank Moosmann, Dikshant Gupta, Fabian Flohr,
- Abstract要約: MASARは、変換器ベースの任意の3D検出器と互換性のある3D検出軌道予測のための新しいフレームワークである。
MASARは過去の軌跡を予測し、外観的手がかりからガイダンスを用いて精錬することにより、将来の軌跡予測を強化する長期的な時間的依存関係をキャプチャする。
- 参考スコア(独自算出の注目度): 2.681087131751672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical autonomous driving systems connect perception and prediction modules via hand-crafted bounding-box interfaces, limiting information flow and propagating errors to downstream tasks. Recent research aims to develop end-to-end models that jointly address perception and prediction; however, they often fail to fully exploit the synergy between appearance and motion cues, relying mainly on short-term visual features. We follow the idea of "looking backward to look forward", and propose MASAR, a novel fully differentiable framework for joint 3D detection and trajectory forecasting compatible with any transformer-based 3D detector. MASAR employs an object-centric spatio-temporal mechanism that jointly encodes appearance and motion features. By predicting past trajectories and refining them using guidance from appearance cues, MASAR captures long-term temporal dependencies that enhance future trajectory forecasting. Experiments conducted on the nuScenes dataset demonstrate MASAR's effectiveness, showing improvements of over 20% in minADE and minFDE while maintaining robust detection performance. Code and models are available at https://github.com/aminmed/MASAR.
- Abstract(参考訳): 古典的な自律運転システムは、手作りのバウンディングボックスインターフェースを介して知覚と予測モジュールを接続し、情報の流れを制限し、下流のタスクにエラーを伝達する。
近年の研究では、知覚と予測を両立させるエンド・ツー・エンド・エンド・モデルの開発が目指されているが、視覚的特徴を主眼として、外見と動きの相乗効果を十分に活用することができないことが多い。
我々は「前方を向いて振り返る」という考え方に従い、あらゆるトランスフォーマーベースの3D検出器と互換性のある関節3D検出と軌道予測のための新しい完全に差別化可能なフレームワークであるMASARを提案する。
MASARはオブジェクト中心の時空間機構を採用し、外観と運動の特徴を共同で符号化する。
MASARは過去の軌跡を予測し、外観的手がかりからガイダンスを用いて精錬することにより、将来の軌跡予測を強化する長期的な時間的依存関係をキャプチャする。
nuScenesデータセットで実施された実験は、MASARの有効性を示し、堅牢な検出性能を維持しながら、minADEとminFDEの20%以上の改善を示している。
コードとモデルはhttps://github.com/aminmed/MASARで入手できる。
関連論文リスト
- Forward Consistency Learning with Gated Context Aggregation for Video Anomaly Detection [17.79982215633934]
ビデオ異常検出(VAD)は、リアルタイム監視システムにおける各種イベントの正常パターンからの偏差を測定することを目的としている。
既存のVAD手法の多くは、リソース制限されたエッジデバイスへの実現可能性を制限するため、極端な精度を追求するために大規模なモデルに依存している。
本稿では,Gatedコンテキストアグリゲーションを用いたフォワード整合学習を実現する軽量なVADモデルFoGAを紹介する。
論文 参考訳(メタデータ) (2026-01-26T04:35:31Z) - ForeSight: Multi-View Streaming Joint Object Detection and Trajectory Forecasting [7.401111319849394]
ForeSightは、自動運転車における視覚に基づく3D知覚のための、新しい共同検出および予測フレームワークである。
ForeSightは最先端のパフォーマンスを達成し、EPAの54.9%を達成し、従来の手法を9.3%上回る結果となった。
論文 参考訳(メタデータ) (2025-08-09T20:18:10Z) - Future Does Matter: Boosting 3D Object Detection with Temporal Motion Estimation in Point Cloud Sequences [25.74000325019015]
クロスフレーム動作予測情報を用いた時空間特徴学習を容易にするために,新しいLiDAR 3Dオブジェクト検出フレームワークLiSTMを導入する。
我々は,本フレームワークが優れた3次元検出性能を実現することを示すため,アグリゲーションとnuScenesデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-06T16:29:04Z) - A Mixture of Experts Approach to 3D Human Motion Prediction [1.4974445469089412]
本研究は,Au-Tonomous Vehicle Motion Detectionなどのアプリケーションにとって重要な領域である,人間の動作予測の課題に対処する。
私たちの主な目的は、既存のモデルar-tectureを批判的に評価し、その利点と改善の機会を特定することです。
これは完全に微分可能なスパーストランスであり、推論コストの低いモデルキャパシティを有効にする有望な能力を示している。
論文 参考訳(メタデータ) (2024-05-09T20:26:58Z) - TrajectoryFormer: 3D Object Tracking Transformer with Predictive
Trajectory Hypotheses [51.60422927416087]
3Dマルチオブジェクトトラッキング(MOT)は、自律走行車やサービスロボットを含む多くのアプリケーションにとって不可欠である。
本稿では,新しいポイントクラウドベースの3DMOTフレームワークであるTrjectoryFormerを紹介する。
論文 参考訳(メタデータ) (2023-06-09T13:31:50Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory
Prediction [64.16212996247943]
歩行者軌道予測のためのスパースグラフ畳み込みネットワーク(SGCN)を提案する。
具体的には、SGCNはスパース指向の相互作用をスパース指向の空間グラフと明確にモデル化し、適応的な相互作用歩行者を捉える。
可視化は,歩行者の適応的相互作用とその運動特性を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:17:42Z) - A Spatio-temporal Transformer for 3D Human Motion Prediction [39.31212055504893]
本研究では,3次元人間の動きの生成モデル作成作業のためのトランスフォーマーに基づくアーキテクチャを提案する。
実験により,これが基礎となる運動力学を効果的に学習し,自己回帰モデルで観測される時間経過に伴う誤差の蓄積を低減することを示した。
論文 参考訳(メタデータ) (2020-04-18T19:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。