論文の概要: 3D-Aware Multi-Task Learning with Cross-View Correlations for Dense Scene Understanding
- arxiv url: http://arxiv.org/abs/2511.20646v1
- Date: Tue, 25 Nov 2025 18:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.644824
- Title: 3D-Aware Multi-Task Learning with Cross-View Correlations for Dense Scene Understanding
- Title(参考訳): シーン理解のためのクロスビュー相関を用いた3次元マルチタスク学習
- Authors: Xiaoye Wang, Chen Tang, Xiangyu Yue, Wei-Hong Li,
- Abstract要約: 現在のアプローチは主に2D画像空間におけるクロスタスク関係を捉えており、しばしば3D認識に欠ける非構造的特徴に繋がる。
MTLネットワークにおける幾何学的整合性として,ビュー間の相関,すなわちコスト容積を統合することで,この問題に対処することを提案する。
具体的には、タスク間で共有される軽量なクロスビューモジュール(CvM)を導入し、ビュー間で情報を交換し、クロスビューの相関を捉える。
- 参考スコア(独自算出の注目度): 18.76513756741288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenge of training a single network to jointly perform multiple dense prediction tasks, such as segmentation and depth estimation, i.e., multi-task learning (MTL). Current approaches mainly capture cross-task relations in the 2D image space, often leading to unstructured features lacking 3D-awareness. We argue that 3D-awareness is vital for modeling cross-task correlations essential for comprehensive scene understanding. We propose to address this problem by integrating correlations across views, i.e., cost volume, as geometric consistency in the MTL network. Specifically, we introduce a lightweight Cross-view Module (CvM), shared across tasks, to exchange information across views and capture cross-view correlations, integrated with a feature from MTL encoder for multi-task predictions. This module is architecture-agnostic and can be applied to both single and multi-view data. Extensive results on NYUv2 and PASCAL-Context demonstrate that our method effectively injects geometric consistency into existing MTL methods to improve performance.
- Abstract(参考訳): 本稿では,マルチタスク学習(MTL)という,セグメント化や深度推定など,複数の密集予測タスクを共同実行するための単一ネットワークの学習課題について述べる。
現在のアプローチは主に2D画像空間におけるクロスタスク関係を捉えており、しばしば3D認識に欠ける非構造的特徴に繋がる。
総合的なシーン理解に欠かせないクロスタスク相関をモデル化するには3D認識が不可欠である。
MTLネットワークにおける幾何学的整合性として,ビュー間の相関,すなわちコスト容積を統合することで,この問題に対処することを提案する。
具体的には、タスク間で共有される軽量なクロスビューモジュール(CvM)を導入し、ビュー間で情報を交換し、クロスビュー相関を捉え、マルチタスク予測のためのMTLエンコーダの機能と統合する。
このモジュールはアーキテクチャに依存しないため、シングルビューデータとマルチビューデータの両方に適用できる。
NYUv2 と PASCAL-Context の広範な結果から,本手法は既存の MTL 手法に幾何的整合性を効果的に注入し,性能を向上することを示した。
関連論文リスト
- Tracking and Segmenting Anything in Any Modality [75.32774085793498]
そこで我々はSATAという汎用的なトラッキング・セグメンテーション・フレームワークを提案し、このフレームワークは任意のモダリティ入力でトラッキング・セグメンテーション・サブタスクの広帯域を統一する。
SATAは18の挑戦的なトラッキングとセグメンテーションベンチマークで優れたパフォーマンスを示し、より一般化可能なビデオ理解のための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-11-22T09:09:22Z) - TEM^3-Learning: Time-Efficient Multimodal Multi-Task Learning for Advanced Assistive Driving [22.22943635900334]
TEM3-Learningは、ドライバーの感情認識、運転者行動認識、交通状況認識、車両行動認識を共同で最適化する新しいフレームワークである。
4つのタスクにまたがって最先端の精度を実現し、600万パラメータ未満の軽量アーキテクチャを維持し、142.32 FPSの推論速度を実現している。
論文 参考訳(メタデータ) (2025-06-22T16:12:27Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - Sequential Cross Attention Based Multi-task Learning [22.430705836627148]
本稿では,タスクのマルチスケール機能にアテンション機構を適用することで,情報伝達を効果的に行う新しいアーキテクチャを提案する。
提案手法は,NYUD-v2およびPASCAL-Contextデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-06T14:17:33Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。
我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。