論文の概要: FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level
Gradient Calibration
- arxiv url: http://arxiv.org/abs/2307.16617v1
- Date: Mon, 31 Jul 2023 12:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:42:35.662321
- Title: FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level
Gradient Calibration
- Title(参考訳): FULLER:マルチレベル勾配校正によるマルチモードマルチタスク3次元知覚
- Authors: Zhijian Huang, Sihao Lin, Guiyu Liu, Mukun Luo, Chaoqiang Ye, Hang Xu,
Xiaojun Chang, Xiaodan Liang
- Abstract要約: マルチモダリティ融合とマルチタスク学習は、3D自動運転シナリオにおいてトレンドになりつつある。
先行研究は、学習フレームワークを経験的な知識で手作業で調整し、それがサブオプティマに繋がる可能性がある。
そこで本稿では,最適化中のタスクやモダリティにまたがる,シンプルなマルチレベル勾配校正学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 89.4165092674947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modality fusion and multi-task learning are becoming trendy in 3D
autonomous driving scenario, considering robust prediction and computation
budget. However, naively extending the existing framework to the domain of
multi-modality multi-task learning remains ineffective and even poisonous due
to the notorious modality bias and task conflict. Previous works manually
coordinate the learning framework with empirical knowledge, which may lead to
sub-optima. To mitigate the issue, we propose a novel yet simple multi-level
gradient calibration learning framework across tasks and modalities during
optimization. Specifically, the gradients, produced by the task heads and used
to update the shared backbone, will be calibrated at the backbone's last layer
to alleviate the task conflict. Before the calibrated gradients are further
propagated to the modality branches of the backbone, their magnitudes will be
calibrated again to the same level, ensuring the downstream tasks pay balanced
attention to different modalities. Experiments on large-scale benchmark
nuScenes demonstrate the effectiveness of the proposed method, eg, an absolute
14.4% mIoU improvement on map segmentation and 1.4% mAP improvement on 3D
detection, advancing the application of 3D autonomous driving in the domain of
multi-modality fusion and multi-task learning. We also discuss the links
between modalities and tasks.
- Abstract(参考訳): 堅牢な予測と計算予算を考慮した3次元自律運転シナリオでは,マルチモーダリティ融合とマルチタスク学習がトレンドになりつつある。
しかし、既存のフレームワークをマルチモーダルなマルチタスク学習の領域に自然に拡張することは、悪名高いモダリティバイアスとタスクコンフリクトのために効果が無く、有害なままである。
これまでの作業では、学習フレームワークと経験的知識を手動で調整している。
この問題を軽減するために,最適化中のタスクやモダリティにまたがる多段階勾配校正学習フレームワークを提案する。
具体的には、タスクヘッドが生成し、共有バックボーンを更新するために使用される勾配は、タスクコンフリクトを軽減するためにバックボーンの最後のレイヤで調整される。
キャリブレーションされた勾配がバックボーンのモダリティ分岐にさらに伝播する前に、その大きさは再び同じレベルにキャリブレーションされ、下流のタスクは異なるモダリティに対してバランスよく注意を払う。
大規模なベンチマーク nuScene 実験では、提案手法の有効性、例えば、地図のセグメンテーションにおける絶対14.4% mIoUの改善、および3D検出における1.4% mAPの改善、マルチモーダリティ融合とマルチタスク学習の領域における3D自動運転の適用の進展が示されている。
また,モダリティとタスクの関係についても論じる。
関連論文リスト
- Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment [0.0]
ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-28T17:20:08Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Mitigating Gradient Bias in Multi-objective Learning: A Provably Convergent Stochastic Approach [38.76462300149459]
我々は多目的勾配最適化のための多目的補正法(MoCo)を開発した。
本手法の特長は,非公正勾配を増大させることなく収束を保証できる点である。
論文 参考訳(メタデータ) (2022-10-23T05:54:26Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。