論文の概要: 3DWG: 3D Weakly Supervised Visual Grounding via Category and Instance-Level Alignment
- arxiv url: http://arxiv.org/abs/2505.01809v1
- Date: Sat, 03 May 2025 12:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.278981
- Title: 3DWG: 3D Weakly Supervised Visual Grounding via Category and Instance-Level Alignment
- Title(参考訳): 3DWG:カテゴリとインスタンスレベルアライメントによる視覚的グラウンドの3D監視
- Authors: Xiaoqi Li, Jiaming Liu, Nuowei Han, Liang Heng, Yandong Guo, Hao Dong, Yang Liu,
- Abstract要約: この3D弱教師付きビジュアルグラウンドタスクは、自然言語記述に基づいて、ポイントクラウドに指向する3Dボックスをローカライズすることを目的としている。
この設定は、カテゴリレベルの曖昧さとインスタンスレベルの複雑さの2つの主な課題を提示します。
提案手法は,Nr3D,Sr3D,ScanRefの3つのベンチマークに対して,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 21.094495640408063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 3D weakly-supervised visual grounding task aims to localize oriented 3D boxes in point clouds based on natural language descriptions without requiring annotations to guide model learning. This setting presents two primary challenges: category-level ambiguity and instance-level complexity. Category-level ambiguity arises from representing objects of fine-grained categories in a highly sparse point cloud format, making category distinction challenging. Instance-level complexity stems from multiple instances of the same category coexisting in a scene, leading to distractions during grounding. To address these challenges, we propose a novel weakly-supervised grounding approach that explicitly differentiates between categories and instances. In the category-level branch, we utilize extensive category knowledge from a pre-trained external detector to align object proposal features with sentence-level category features, thereby enhancing category awareness. In the instance-level branch, we utilize spatial relationship descriptions from language queries to refine object proposal features, ensuring clear differentiation among objects. These designs enable our model to accurately identify target-category objects while distinguishing instances within the same category. Compared to previous methods, our approach achieves state-of-the-art performance on three widely used benchmarks: Nr3D, Sr3D, and ScanRef.
- Abstract(参考訳): 3D弱教師付きビジュアルグラウンドタスクは、モデル学習をガイドするアノテーションを必要とせずに、自然言語記述に基づいて、ポイントクラウドに指向する3Dボックスをローカライズすることを目的としている。
この設定は、カテゴリレベルの曖昧さとインスタンスレベルの複雑さの2つの主な課題を提示します。
カテゴリーレベルの曖昧さは、粒度の細かいカテゴリのオブジェクトを非常に疎いポイントクラウド形式で表現することから生じ、カテゴリーの区別が難しい。
インスタンスレベルの複雑性は、シーンに共存する同じカテゴリの複数のインスタンスに起因し、接地中に混乱を引き起こす。
これらの課題に対処するために、カテゴリとインスタンスを明確に区別する、弱い教師付き基底手法を提案する。
カテゴリレベルの分岐では、事前訓練された外部検出器からの広範なカテゴリ知識を利用して、オブジェクトの提案特徴と文レベルのカテゴリ特徴とを整合させ、カテゴリ意識を高める。
インスタンスレベルの分岐では、言語クエリからの空間的関係記述を利用して、オブジェクトの提案機能を洗練し、オブジェクト間の明確な区別を保証する。
これらの設計により、同一カテゴリ内のインスタンスを識別しながら、ターゲットカテゴリオブジェクトを正確に識別することができる。
従来の手法と比較して,提案手法はNr3D, Sr3D, ScanRefの3つの広く使用されているベンチマークに対して最先端の性能を実現する。
関連論文リスト
- Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions [35.20091752343433]
この研究は2つの階層的文脈、すなわち知覚的文脈と刺激的文脈を導入し、正確な圏境界を注意深く記述する。
2つの文脈は、あるカテゴリの正確な記述を階層的に構成するが、これはまず、予測されたカテゴリにサンプルを大まかに分類する。
CATegory-Extensible OOD Detection (CATEX)
論文 参考訳(メタデータ) (2024-07-23T12:53:38Z) - Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance [49.14140194332482]
Open3DISは3Dシーン内でのOpen-Vocabulary Instanceの問題に対処するために設計された新しいソリューションである。
3D環境内のオブジェクトは、さまざまな形状、スケール、色を示し、正確なインスタンスレベルの識別が困難なタスクとなる。
論文 参考訳(メタデータ) (2023-12-17T10:07:03Z) - Learning Dense Object Descriptors from Multiple Views for Low-shot
Category Generalization [27.583517870047487]
本稿では、カテゴリやセマンティックなオブジェクト部分ラベルを使わずに、オブジェクトインスタンスの複数のビューからトレーニングできるDeep Object Patch rimis(DOPE)を提案する。
DOPEを訓練するために、物体の視界間の画素レベルの対応を得るために、スパースディープ、フォアグラウンドマスク、および既知のカメラへのアクセスを仮定する。
DOPEは, 局所的マッチングを用いて, 新規カテゴリーの低ショット分類に利用でき, 教師付き学習ベースラインや自己教師型学習ベースラインと競合し, 優れることがわかった。
論文 参考訳(メタデータ) (2022-11-28T04:31:53Z) - Disentangling What and Where for 3D Object-Centric Representations
Through Active Inference [4.088019409160893]
本稿では、時間とともに新しいオブジェクトカテゴリを学習できるアクティブ推論エージェントを提案する。
我々のエージェントは、教師なしの方法で、多くのオブジェクトカテゴリの表現を学習できることを示す。
我々は,エージェントが画素ベースのレンダリングから与えられたポーズでオブジェクトを検索できるエンドツーエンドでシステムを検証する。
論文 参考訳(メタデータ) (2021-08-26T12:49:07Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z) - Fine-Grained 3D Shape Classification with Hierarchical Part-View
Attentions [70.0171362989609]
本稿では,FG3D-Netと呼ばれる新しい3次元形状分類手法を提案する。
詳細な3次元形状データセットに基づく結果から,本手法が他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T06:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。