論文の概要: Multi-Object Grounding via Hierarchical Contrastive Siamese Transformers
- arxiv url: http://arxiv.org/abs/2504.10048v1
- Date: Mon, 14 Apr 2025 09:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:35.370921
- Title: Multi-Object Grounding via Hierarchical Contrastive Siamese Transformers
- Title(参考訳): 階層型コントラスト型シームス変圧器による多目的接地
- Authors: Chengyi Du, Keyan Jin,
- Abstract要約: 3Dシーンにおけるマルチオブジェクトグラウンドは、自然言語入力に基づいて複数のオブジェクトをローカライズする。
本稿では階層型コントラスト型シームス変換器(H-COST)を提案する。
また、同じ構造を持つ2つのネットワークを使用するContrastive Siamese Transformerフレームワークも導入する。
提案手法は, 従来の最先端手法よりも9.5%高い性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Multi-object grounding in 3D scenes involves localizing multiple objects based on natural language input. While previous work has primarily focused on single-object grounding, real-world scenarios often demand the localization of several objects. To tackle this challenge, we propose Hierarchical Contrastive Siamese Transformers (H-COST), which employs a Hierarchical Processing strategy to progressively refine object localization, enhancing the understanding of complex language instructions. Additionally, we introduce a Contrastive Siamese Transformer framework, where two networks with the identical structure are used: one auxiliary network processes robust object relations from ground-truth labels to guide and enhance the second network, the reference network, which operates on segmented point-cloud data. This contrastive mechanism strengthens the model' s semantic understanding and significantly enhances its ability to process complex point-cloud data. Our approach outperforms previous state-of-the-art methods by 9.5% on challenging multi-object grounding benchmarks.
- Abstract(参考訳): 3Dシーンにおけるマルチオブジェクトグラウンドは、自然言語入力に基づいて複数のオブジェクトをローカライズする。
これまでの研究は主に単一対象のグラウンドに焦点を当ててきたが、現実のシナリオはいくつかのオブジェクトのローカライズを要求することが多い。
この課題に対処するために,階層型コントラスト・シームズ変換器 (H-COST) を提案する。
さらに,コントラスト型シームス変圧器(Contrastive Siamese Transformer)フレームワークを導入し,同一構造を持つ2つのネットワークを利用する。
この対照的なメカニズムは、モデルのセマンティック理解を強化し、複雑なポイントクラウドデータを処理する能力を大幅に強化する。
提案手法は, 従来の最先端手法よりも9.5%高い性能を示した。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Mitigating Object Dependencies: Improving Point Cloud Self-Supervised Learning through Object Exchange [50.45953583802282]
我々は,ポイントクラウドシーン理解のための新たな自己教師型学習(SSL)戦略を導入する。
このアプローチでは、オブジェクトパターンとコンテキストキューの両方を活用して、堅牢な機能を生成します。
提案手法は既存のSSL技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-11T06:39:53Z) - Dual-Augmented Transformer Network for Weakly Supervised Semantic
Segmentation [4.02487511510606]
弱教師付きセマンティックセグメンテーション(WSSS)は、クラスレベルのラベルのみにオブジェクトを分割することを目的とした、基本的なコンピュータビジョンタスクである。
従来の手法では、CNNベースのネットワークを採用し、クラスアクティベーションマップ(CAM)戦略を用いて対象領域を発見する。
別の方法は、視覚変換器(ViT)を探索して画像を符号化し、グローバルな意味情報を取得することである。
相互補完学習のためのCNNベースネットワークとトランスフォーマーネットワークを併用したデュアルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T08:41:11Z) - Dense Object Grounding in 3D Scenes [28.05720194887322]
自然言語のセマンティクスに応じた3Dシーンでのオブジェクトのローカライズは、マルチメディア理解の分野における基本的な重要な課題である。
我々は,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG)を紹介した。
提案した3DOGSFormerは,最先端の3次元単一物体グラウンド法と,その密度オブジェクトの変形率を有意差で上回る。
論文 参考訳(メタデータ) (2023-09-05T13:27:19Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - TransRefer3D: Entity-and-Relation Aware Transformer for Fine-Grained 3D
Visual Grounding [15.617150859765024]
我々はTransformerを、置換不変な3次元点群データに対する自然な適合性に活用する。
本稿では,エンティティとリレーショナルを意識したマルチモーダルコンテキストを抽出するTransRefer3Dネットワークを提案する。
提案手法は既存手法を最大10.6%上回る性能を示した。
論文 参考訳(メタデータ) (2021-08-05T05:47:12Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。