Fugu-MT 論文翻訳(概要): Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving

論文の概要: Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving

arxiv url: http://arxiv.org/abs/2502.07631v2
Date: Wed, 02 Apr 2025 09:10:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 15:43:07.928085
Title: Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving
Title（参考訳）: Divide and Merge: エンドツーエンド自動運転における動作とセマンティック学習
Authors: Yinzhe Shen, Omer Sahin Tas, Kaiwen Wang, Royden Wagner, Christoph Stiller,
Abstract要約: 本稿では,新しい並列検出,追跡,予測手法であるニューラルベイズ動作復号法を提案する。対話型セマンティックデコーディングを用いて、セマンティックタスクにおける情報交換を強化し、肯定的な伝達を促進する。 UniADとSparseDriveによるnuScenesデータセットの実験により、分割とマージのアプローチの有効性が確認された。
参考スコア（独自算出の注目度）: 7.620469713146574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Perceiving the environment and its changes over time corresponds to two fundamental yet heterogeneous types of information: semantics and motion. Previous end-to-end autonomous driving works represent both types of information in a single feature vector. However, including motion related tasks, such as prediction and planning, impairs detection and tracking performance, a phenomenon known as negative transfer in multi-task learning. To address this issue, we propose Neural-Bayes motion decoding, a novel parallel detection, tracking, and prediction method that separates semantic and motion learning. Specifically, we employ a set of learned motion queries that operate in parallel with detection and tracking queries, sharing a unified set of recursively updated reference points. Moreover, we employ interactive semantic decoding to enhance information exchange in semantic tasks, promoting positive transfer. Experiments on the nuScenes dataset with UniAD and SparseDrive confirm the effectiveness of our divide and merge approach, resulting in performance improvements across perception, prediction, and planning. Our code is available at https://github.com/shenyinzhe/DMAD.
Abstract（参考訳）: 時間とともに環境とその変化を認識することは、セマンティックスとモーションという2つの基本的な情報に対応する。従来のエンドツーエンドの自動運転作業は、両方の種類の情報を単一の特徴ベクトルで表現する。しかし、予測・計画などの動作関連タスクを含むと、検出・追跡性能が損なわれ、マルチタスク学習における負の伝達として知られる現象である。この問題に対処するために,ニューラルベイズ・モーション・デコーディング,新しい並列検出,追跡,予測手法を提案し,セマンティックとモーション・ラーニングを分離する。具体的には、再帰的に更新された参照ポイントの集合を共有することで、クエリの検出と追跡と並行して動作する一連の学習されたモーションクエリを採用する。さらに,対話型セマンティックデコーディングを用いて,セマンティックタスクにおける情報交換を強化し,肯定的な伝達を促進する。 UniADとSparseDriveによるnuScenesデータセットの実験により、分割とマージアプローチの有効性が確認され、認識、予測、計画のパフォーマンスが向上した。私たちのコードはhttps://github.com/shenyinzhe/DMAD.comで公開されています。

関連論文リスト

Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition [36.662223760818584]
Trokensは、トラジェクトリポイントをアクション認識のための意味認識型リレーショナルトークンに変換する新しいアプローチである。本研究では, 軌跡のヒストグラム(Histogram of Oriented Displacements, HoD)と, 複雑な行動パターンをモデル化するための軌跡間関係(inter-trajectory relationship)により, 軌道内力学を捉える運動モデリングフレームワークを開発した。提案手法は,これらのトラジェクトリトークンとセマンティックな特徴を効果的に組み合わせて,動作情報による外観特徴の向上と,6つの多種多様なアクション認識ベンチマークにおける最先端性能の実現を実現する。
論文参考訳（メタデータ） (2025-08-05T17:59:58Z)
Multi-Timescale Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot Learning [73.7808110878037]
本稿では,MDST++(Multi-Timescale Motion-Decoupled Spiking Transformer)を提案する。 RGB画像をイベントに変換することで、より正確に動き情報をキャプチャし、背景のバイアスを軽減する。本実験はMDST++の有効性を検証し,主流ベンチマークにおける最先端手法よりも一貫した優位性を示した。
論文参考訳（メタデータ） (2025-05-26T13:06:01Z)
Event-Based Tracking Any Point with Motion-Augmented Temporal Consistency [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。出来事の空間的空間性や動きの感度によって引き起こされる課題に対処する。競合モデルパラメータによる処理を150%高速化する。
論文参考訳（メタデータ） (2024-12-02T09:13:29Z)
I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文参考訳（メタデータ） (2024-06-10T13:08:31Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
T4P: Test-Time Training of Trajectory Prediction via Masked Autoencoder and Actor-specific Token Memory [39.021321011792786]
軌道予測は、複数のアクター間の相互作用を考慮することを必要とする難しい問題である。データ駆動型アプローチは、この複雑な問題に対処するために使われてきたが、テスト期間中に分散シフトの下では信頼性の低い予測に悩まされている。本研究では,観測データから回帰損失を用いたオンライン学習手法を提案する。提案手法は,予測精度と計算効率の両方の観点から,既存の最先端オンライン学習手法の性能を超越した手法である。
論文参考訳（メタデータ） (2024-03-15T06:47:14Z)
Improved LiDAR Odometry and Mapping using Deep Semantic Segmentation and Novel Outliers Detection [1.0334138809056097]
高速移動プラットフォームのためのLOAMアーキテクチャに基づくリアルタイムLiDARオドメトリーとマッピングのための新しいフレームワークを提案する。本フレームワークは,ディープラーニングモデルによって生成された意味情報を用いて,ポイント・ツー・ラインとポイント・ツー・プレーンのマッチングを改善する。高速動作に対するLiDARオドメトリーのロバスト性に及ぼすマッチング処理の改善効果について検討した。
論文参考訳（メタデータ） (2024-03-05T16:53:24Z)
Simultaneous Clutter Detection and Semantic Segmentation of Moving Objects for Automotive Radar Data [12.96486891333286]
レーダセンサは、自動運転車の環境認識システムにおいて重要な部分である。レーダーポイント雲の処理における最初のステップの1つは、しばしば乱れの検出である。もう一つの一般的な目的は、移動道路利用者のセマンティックセグメンテーションである。我々は,RadarScenesデータセットのセマンティックセマンティックセグメンテーションにおいて,我々の設定が極めて効果的であることを示し,既存のネットワークよりも優れていることを示す。
論文参考訳（メタデータ） (2023-11-13T11:29:38Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Visual Exemplar Driven Task-Prompting for Unified Perception in Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文参考訳（メタデータ） (2023-03-03T08:54:06Z)
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文参考訳（メタデータ） (2022-04-07T17:59:32Z)
Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文参考訳（メタデータ） (2022-03-27T08:15:20Z)
DIAL: Deep Interactive and Active Learning for Semantic Segmentation in Remote Sensing [34.209686918341475]
我々は、ディープニューラルネットワークと人間のループでの協調を構築することを提案する。簡単に言うと、エージェントはネットワークと反復的に対話して、当初欠陥があった予測を修正する。本研究では,不確実性推定に基づくアクティブラーニングにより,ユーザを迅速に誤りに導くことができることを示す。
論文参考訳（メタデータ） (2022-01-04T09:11:58Z)
Decoder Fusion RNN: Context and Interaction Aware Decoders for Trajectory Prediction [53.473846742702854]
本稿では,動き予測のための反復的,注意に基づくアプローチを提案する。 Decoder Fusion RNN (DF-RNN) は、リカレント動作エンコーダ、エージェント間マルチヘッドアテンションモジュール、コンテキスト認識デコーダで構成される。提案手法の有効性をArgoverseモーション予測データセットで検証し,その性能を公開ベンチマークで示す。
論文参考訳（メタデータ） (2021-08-12T15:53:37Z)
IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文参考訳（メタデータ） (2021-01-20T00:31:52Z)
Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文参考訳（メタデータ） (2020-07-23T14:31:25Z)
Learning Invariant Representations for Reinforcement Learning without Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文参考訳（メタデータ） (2020-06-18T17:59:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。