論文の概要: Evolving Symbolic 3D Visual Grounder with Weakly Supervised Reflection
- arxiv url: http://arxiv.org/abs/2502.01401v3
- Date: Thu, 20 Feb 2025 08:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:25:18.201859
- Title: Evolving Symbolic 3D Visual Grounder with Weakly Supervised Reflection
- Title(参考訳): 弱視反射によるシンボル3次元視覚グラウンドの進化
- Authors: Boyu Mi, Hanqing Wang, Tai Wang, Yilun Chen, Jiangmiao Pang,
- Abstract要約: Evolvable Symbolic Visual Grounder (EaSe)は、3Dビジュアルグラウンドのためのトレーニング不要なシンボルフレームワークである。
EaSeはNr3Dデータセットで52.9%、ScanReferで49.2%のAcc@0.25を達成している。
推論時間とコストを大幅に削減し、パフォーマンスと効率のバランスのとれたトレードオフを提供します。
- 参考スコア(独自算出の注目度): 25.520626014113585
- License:
- Abstract: 3D visual grounding (3DVG) is challenging because of the requirement of understanding on visual information, language and spatial relationships. While supervised approaches have achieved superior performance, they are constrained by the scarcity and high cost of 3D vision-language datasets. On the other hand, LLM/VLM based agents are proposed for 3DVG, eliminating the need for training data. However, these methods incur prohibitive time and token costs during inference. To address the challenges, we introduce a novel training-free symbolic framework for 3D visual grounding, namely Evolvable Symbolic Visual Grounder, that offers significantly reduced inference costs compared to previous agent-based methods while maintaining comparable performance. EaSe uses LLM generated codes to compute on spatial relationships. EaSe also implements an automatic pipeline to evaluate and optimize the quality of these codes and integrate VLMs to assist in the grounding process. Experimental results demonstrate that EaSe achieves 52.9% accuracy on Nr3D dataset and 49.2% Acc@0.25 on ScanRefer, which is top-tier among training-free methods. Moreover, it substantially reduces the inference time and cost, offering a balanced trade-off between performance and efficiency. Codes are available at https://github.com/OpenRobotLab/EaSe.
- Abstract(参考訳): 視覚情報,言語,空間的関係の理解が求められているため,3次元視覚接地(3DVG)は困難である。
教師付きアプローチは優れたパフォーマンスを達成したが、3Dビジョン言語データセットの不足と高コストに制約されている。
一方、LLM/VLMベースのエージェントは3DVGに対して提案されており、トレーニングデータを必要としない。
しかし、これらの手法は推論中に禁止時間とトークンコストを発生させる。
これらの課題に対処するため、我々は3次元視覚グラウンドのための新しいトレーニング不要なシンボルフレームワーク、Evolvable Symbolic Visual Grounderを導入する。
EaSeはLLM生成符号を用いて空間関係を計算している。
EaSeはまた、これらのコードの品質を評価し最適化するための自動パイプラインを実装し、基盤プロセスを支援するためにVLMを統合する。
実験の結果、EaSeはNr3Dデータセットで52.9%、ScanReferで49.2%のAcc@0.25を達成している。
さらに、推論時間とコストを大幅に削減し、パフォーマンスと効率のバランスのとれたトレードオフを提供します。
コードはhttps://github.com/OpenRobotLab/EaSeで入手できる。
関連論文リスト
- Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [8.07701188057789]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Hierarchical Supervision and Shuffle Data Augmentation for 3D
Semi-Supervised Object Detection [90.32180043449263]
最先端の3Dオブジェクト検出器は通常、高品質な3Dアノテーションを備えた大規模データセットで訓練される。
自然な治療法は、限られた量のラベル付きサンプルと豊富なラベル付きサンプルを活用することで、半教師付き学習(SSL)を採用することである。
本稿では,HSSDA(Hierarchical Supervision and Shuffle Data Augmentation)の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T02:09:32Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Learning from Unlabeled 3D Environments for Vision-and-Language
Navigation [87.03299519917019]
視覚言語ナビゲーション(VLN)では、自然言語の指示に従って現実的な3D環境をナビゲートするために、具体的エージェントが必要である。
我々はHM3Dから900の未ラベルの3Dビルディングから大規模VLNデータセットを自動生成することを提案する。
実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-08-24T21:50:20Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Unsupervised Learning of slow features for Data Efficient Regression [15.73372211126635]
本稿では、遅延表現に時間的類似性制約を適用した$beta$-VAEの拡張である、遅い変分オートエンコーダ(S-VAE)を提案する。
合成2次元球追跡データセットと、最近の学習環境からのデータセットとDeepMind Lab環境から生成されたデータセットを用いて、下流タスクのデータ効率に対する3つの手法を評価する。
論文 参考訳(メタデータ) (2020-12-11T12:19:45Z) - SelfVoxeLO: Self-supervised LiDAR Odometry with Voxel-based Deep Neural
Networks [81.64530401885476]
本稿では,これら2つの課題に対処するために,自己教師型LiDARオドメトリー法(SelfVoxeLO)を提案する。
具体的には、生のLiDARデータを直接処理する3D畳み込みネットワークを提案し、3D幾何パターンをよりよく符号化する特徴を抽出する。
我々は,KITTIとApollo-SouthBayという2つの大規模データセット上での手法の性能を評価する。
論文 参考訳(メタデータ) (2020-10-19T09:23:39Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。