論文の概要: Multi-branch Collaborative Learning Network for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2407.05363v1
- Date: Sun, 7 Jul 2024 13:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 19:57:34.678211
- Title: Multi-branch Collaborative Learning Network for 3D Visual Grounding
- Title(参考訳): 3次元視覚接地のためのマルチブランチ協調学習ネットワーク
- Authors: Zhipeng Qian, Yiwei Ma, Zhekai Lin, Jiayi Ji, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: 3D参照表現理解(3DREC)とセグメンテーション(3DRES)は重なり合う目標を持ち、コラボレーションの可能性を示している。
我々は,3DRECタスクと3DRESタスクに個別のブランチを採用することで,各タスクの特定の情報を学ぶ能力が向上すると主張している。
- 参考スコア(独自算出の注目度): 66.67647903507927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D referring expression comprehension (3DREC) and segmentation (3DRES) have overlapping objectives, indicating their potential for collaboration. However, existing collaborative approaches predominantly depend on the results of one task to make predictions for the other, limiting effective collaboration. We argue that employing separate branches for 3DREC and 3DRES tasks enhances the model's capacity to learn specific information for each task, enabling them to acquire complementary knowledge. Thus, we propose the MCLN framework, which includes independent branches for 3DREC and 3DRES tasks. This enables dedicated exploration of each task and effective coordination between the branches. Furthermore, to facilitate mutual reinforcement between these branches, we introduce a Relative Superpoint Aggregation (RSA) module and an Adaptive Soft Alignment (ASA) module. These modules significantly contribute to the precise alignment of prediction results from the two branches, directing the module to allocate increased attention to key positions. Comprehensive experimental evaluation demonstrates that our proposed method achieves state-of-the-art performance on both the 3DREC and 3DRES tasks, with an increase of 3.27% in Acc@0.5 for 3DREC and 5.22% in mIOU for 3DRES.
- Abstract(参考訳): 3D参照表現理解(3DREC)とセグメンテーション(3DRES)は重なり合う目標を持ち、コラボレーションの可能性を示している。
しかし、既存の協調的なアプローチは、1つのタスクの結果に大きく依存し、もう1つのタスクの予測を行い、効果的なコラボレーションを制限する。
3DRECタスクと3DRESタスクに個別のブランチを採用することで、各タスクの特定の情報を学ぶ能力が向上し、補完的な知識が得られます。
そこで本研究では、3DRECタスクと3DRESタスクの独立ブランチを含むMCLNフレームワークを提案する。
これにより、各タスクの専用の探索と、ブランチ間の効果的な調整が可能になる。
さらに,これらの分岐間の相互強化を容易にするために,相対的スーパーポイントアグリゲーション (RSA) モジュールと適応的ソフトアライメント (ASA) モジュールを導入する。
これらのモジュールは2つの分岐からの予測結果の正確なアライメントに大きく貢献し、モジュールにキー位置への注意を割り当てるよう指示した。
その結果,3DRECのAcc@0.5,3DRESのmIOUの5.22%,3DRECのAcc@0.5,3DRESのAcc@0.5の3.27%の増加が得られた。
関連論文リスト
- Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization [51.33923845954759]
3Dビジュアルグラウンド(3DVG)と3Dキャプション(3DDC)は、様々な3Dアプリケーションにおいて2つの重要なタスクである。
本稿では,これら2つの異なる,しかし密接に関連するタスクを協調的に解決する統合フレームワークである3DGCTRを提案する。
実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として使用する。
論文 参考訳(メタデータ) (2024-04-17T04:46:27Z) - Spatio-Temporal Domain Awareness for Multi-Agent Collaborative
Perception [18.358998861454477]
車両間通信の潜在的な応用としてのマルチエージェント協調認識は、単一エージェント認識よりも自律走行車の性能知覚を著しく向上させる可能性がある。
本稿では,エージェント間の認識特性をエンドツーエンドに集約する新しい協調認識フレームワークSCOPEを提案する。
論文 参考訳(メタデータ) (2023-07-26T03:00:31Z) - CORE: Cooperative Reconstruction for Multi-Agent Perception [24.306731432524227]
COREは概念的にシンプルで効果的でコミュニケーション効率の良い多エージェント協調知覚モデルである。
2つの重要な洞察に基づいて協調的な再建という新たな視点から、この課題に対処する。
大規模マルチエージェントの知覚データセットであるOPV2V上でCOREを検証する。
論文 参考訳(メタデータ) (2023-07-21T11:50:05Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - LIGHT: Joint Individual Building Extraction and Height Estimation from
Satellite Images through a Unified Multitask Learning Network [8.09909901104654]
建物抽出と高さ推定はリモートセンシング画像解釈における2つの重要な基本課題である。
現存する研究の多くは、この2つの課題を独立した研究とみなしている。
本研究では,IndividuaL buIlding extract と HeiGHt Estimation を組み合わせたマルチタスク学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-03T15:48:24Z) - Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。
i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。
新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文 参考訳(メタデータ) (2023-04-03T13:41:35Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act
Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。
既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。
本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文 参考訳(メタデータ) (2020-08-16T14:13:32Z) - An Iterative Multi-Knowledge Transfer Network for Aspect-Based Sentiment
Analysis [73.7488524683061]
本稿では,エンド・ツー・エンドABSAのための新しいIterative Multi-Knowledge Transfer Network (IMKTN)を提案する。
我々のIMKTNは、よく設計されたルーティングアルゴリズムを用いて、3つのサブタスクのうち2つのタスク固有の知識をトークンレベルで別のタスクに転送する。
3つのベンチマークデータセットの実験結果は、我々のアプローチの有効性と優位性を示している。
論文 参考訳(メタデータ) (2020-04-04T13:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。