Fugu-MT 論文翻訳(概要): Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding

論文の概要: Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding

arxiv url: http://arxiv.org/abs/2309.04561v2
Date: Wed, 3 Jul 2024 14:01:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 20:43:01.846672
Title: Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding
Title（参考訳）: 深度3次元視覚接地における両眼融合改善のための4つの方法
Authors: Ozan Unal, Christos Sakaridis, Suman Saha, Luc Van Gool,
Abstract要約: 3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
参考スコア（独自算出の注目度）: 56.00186960144545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D visual grounding is the task of localizing the object in a 3D scene which is referred by a description in natural language. With a wide range of applications ranging from autonomous indoor robotics to AR/VR, the task has recently risen in popularity. A common formulation to tackle 3D visual grounding is grounding-by-detection, where localization is done via bounding boxes. However, for real-life applications that require physical interactions, a bounding box insufficiently describes the geometry of an object. We therefore tackle the problem of dense 3D visual grounding, i.e. referral-based 3D instance segmentation. We propose a dense 3D grounding network ConcreteNet, featuring four novel stand-alone modules that aim to improve grounding performance for challenging repetitive instances, i.e. instances with distractors of the same semantic class. First, we introduce a bottom-up attentive fusion module that aims to disambiguate inter-instance relational cues, next, we construct a contrastive training scheme to induce separation in the latent space, we then resolve view-dependent utterances via a learned global camera token, and finally we employ multi-view ensembling to improve referred mask quality. ConcreteNet ranks 1st on the challenging ScanRefer online benchmark and has won the ICCV 3rd Workshop on Language for 3D Scenes "3D Object Localization" challenge.
Abstract（参考訳）: 3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。自律型屋内ロボティクスからAR/VRまで幅広い応用により、このタスクは最近人気が高まっている。 3次元の視覚的接地に取り組むための一般的な定式化は、境界ボックスを介して局所化を行うグラウンド・バイ・検出である。しかし、物理的な相互作用を必要とする現実のアプリケーションでは、境界ボックスは対象の幾何学を十分に記述していない。そこで我々は,高密度な3次元視覚的接地,すなわちレファレンシャルベースの3次元インスタンスセグメンテーションの問題に取り組む。本研究では,4つの新しいスタンドアロンモジュールを特徴とする高密度な3DグラウンドネットワークであるContactNetを提案する。まず,階層間関係を曖昧にすることを目的としたボトムアップ注意融合モジュールを導入し,次に,潜時空間の分離を誘導する対照的な学習手法を構築し,学習されたグローバルカメラトークンを用いてビュー依存発話を解決し,最後に,参照マスクの品質を向上させるためにマルチビューアンサンブルを用いる。 concreteNetは、挑戦的なScanReferオンラインベンチマークで1位にランクインし、ICCV 3rd Workshop on Language for 3D Scenes "3D Object Localization"チャレンジで優勝した。

関連論文リスト

Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。 UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文参考訳（メタデータ） (2025-12-16T12:49:35Z)
Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文参考訳（メタデータ） (2025-11-14T04:16:09Z)
ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models [0.0]
ZING-3Dは、ゼロショット方式で3Dシーンのリッチな意味表現を生成するフレームワークである。また、3D空間におけるインクリメンタルな更新と幾何学的接地を可能にし、下流のロボティクスアプリケーションに適している。 Replica と HM3D データセットを用いた実験により,ZING-3D はタスク固有の訓練を必要とせず,空間的および関係的な知識を捉えるのに有効であることが示された。
論文参考訳（メタデータ） (2025-10-24T00:52:33Z)
From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes [16.38713257618971]
Anywhere3D-Benchは2,632個の表現3D境界ボックスペアからなる総合的な3D視覚的グラウンドベンチマークである。我々は,大規模言語モデルとともに,最先端の3次元視覚的グラウンドディング手法の評価を行った。
論文参考訳（メタデータ） (2025-06-05T11:28:02Z)
AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。本稿では,関係認識のためのオブジェクト識別を伴う意味空間のシーングラフを構築する2次元視覚的グラウンドティングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-07T02:02:15Z)
AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。 AugReferは3次元視覚的接地を前進させる新しい手法である。
論文参考訳（メタデータ） (2025-01-16T09:57:40Z)
Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention [12.203336176170982]
D-LISAは3つのイノベーションを取り入れた2段階のアプローチである。まず、可変で学習可能なボックスの提案を可能にする動的視覚モジュール。第二に、提案毎に特徴を抽出するダイナミックカメラの位置決め。第三に、言語インフォームド空間アテンションモジュールは、最終的な予測を出力する提案に対してより良い理由を持つ。
論文参考訳（メタデータ） (2024-10-29T17:52:20Z)
Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。 Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文参考訳（メタデータ） (2024-05-29T17:56:07Z)
SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。 SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。 SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文参考訳（メタデータ） (2024-04-01T21:23:03Z)
Dense Object Grounding in 3D Scenes [28.05720194887322]
自然言語のセマンティクスに応じた3Dシーンでのオブジェクトのローカライズは、マルチメディア理解の分野における基本的な重要な課題である。我々は,1文ではなく,より複雑な段落で記述された複数のオブジェクトを共同でローカライズする3D Dense Object Grounding (3D DOG)を紹介した。提案した3DOGSFormerは,最先端の3次元単一物体グラウンド法と,その密度オブジェクトの変形率を有意差で上回る。
論文参考訳（メタデータ） (2023-09-05T13:27:19Z)
3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。 3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T09:33:25Z)
NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文参考訳（メタデータ） (2023-05-28T16:18:41Z)
Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文参考訳（メタデータ） (2023-03-18T15:37:35Z)
Looking Outside the Box to Ground Language in 3D Scenes [27.126171549887232]
本稿では,3つの主要な革新を伴う3次元シーンにおける接地言語モデルを提案する。言語ストリーム、ポイントクラウド機能ストリーム、および3Dボックスの提案に反復的に注目する。 3Dオブジェクトアノテーションと言語基底アノテーションからの共同管理。マイナーな変更を伴う2Dイメージの言語基盤に適用すると、GPU時間の半分に収束しながら、最先端の処理と同等に動作します。
論文参考訳（メタデータ） (2021-12-16T13:50:23Z)
LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文参考訳（メタデータ） (2021-07-07T18:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。