論文の概要: Naturally Supervised 3D Visual Grounding with Language-Regularized Concept Learners
- arxiv url: http://arxiv.org/abs/2404.19696v1
- Date: Tue, 30 Apr 2024 16:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:36:16.096780
- Title: Naturally Supervised 3D Visual Grounding with Language-Regularized Concept Learners
- Title(参考訳): 言語規則化概念学習者による自然監督型3次元視覚接地
- Authors: Chun Feng, Joy Hsu, Weiyu Liu, Jiajun Wu,
- Abstract要約: 我々はLARC(Language-Regularized Concept Learner)を提案する。
LARCは言語からの制約を正規化として使用し、ニューロシンボリックな概念学習者の精度を大幅に向上させる。
LARCは自然に監督された3次元視覚グラウンドにおける先行作業の性能を向上させる。
- 参考スコア(独自算出の注目度): 15.178598145436142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D visual grounding is a challenging task that often requires direct and dense supervision, notably the semantic label for each object in the scene. In this paper, we instead study the naturally supervised setting that learns from only 3D scene and QA pairs, where prior works underperform. We propose the Language-Regularized Concept Learner (LARC), which uses constraints from language as regularization to significantly improve the accuracy of neuro-symbolic concept learners in the naturally supervised setting. Our approach is based on two core insights: the first is that language constraints (e.g., a word's relation to another) can serve as effective regularization for structured representations in neuro-symbolic models; the second is that we can query large language models to distill such constraints from language properties. We show that LARC improves performance of prior works in naturally supervised 3D visual grounding, and demonstrates a wide range of 3D visual reasoning capabilities-from zero-shot composition, to data efficiency and transferability. Our method represents a promising step towards regularizing structured visual reasoning frameworks with language-based priors, for learning in settings without dense supervision.
- Abstract(参考訳): 3Dビジュアルグラウンドティングは、直接的かつ高密度な監視を必要とすることが多い、特にシーン内の各オブジェクトのセマンティックなラベルを必要とする、困難なタスクである。
そこで本研究では,3次元シーンとQAペアのみから学習する自然教師あり環境について検討する。
言語規則化概念学習者(LARC)は,言語からの制約を正規化として用いて,自然環境下でのニューロシンボリック概念学習者の精度を大幅に向上させる。
1つは、言語制約(例えば、単語の関係)が、ニューロシンボリックモデルにおける構造化表現の効果的な正規化として機能し、もう1つは、言語特性からそのような制約を抽出するために、大きな言語モデルに問い合わせることである。
LARCは、自然に監督された3次元視覚的グラウンドにおける先行作業の性能を改善し、ゼロショット合成からデータ効率と転送性に至るまで、幅広い3次元視覚的推論能力を示す。
本手法は,構造化視覚推論フレームワークを言語ベースで正規化するための有望なステップである。
関連論文リスト
- LangOcc: Self-Supervised Open Vocabulary Occupancy Estimation via Volume Rendering [0.5852077003870417]
LangOccはオープン語彙占有率推定の新しいアプローチである。
カメライメージによってのみ訓練され、視覚言語アライメントによって任意の意味を検出することができる。
我々はOcc3D-nuScenesデータセット上での自己教師型セマンティック占有度推定の最先端結果を得る。
論文 参考訳(メタデータ) (2024-07-24T14:22:55Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - Can 3D Vision-Language Models Truly Understand Natural Language? [42.73664281910605]
既存の3D-VLモデルは言語入力のスタイルに敏感であり、同じ意味を持つ文を理解するのに苦労するが、異なる変種で書かれる。
本稿では,様々なタスクにまたがって3D-VLモデルを体系的に評価し,異なる言語スタイルのバリエーションを提示した場合のパフォーマンスをベンチマークする言語頑健性タスクを提案する。
包括的評価により,様々な3D-VLタスクにまたがる既存モデルの性能低下が明らかとなった。
最先端の3D-LLMでさえ、同じ文の変種を理解することができない。
論文 参考訳(メタデータ) (2024-03-21T18:02:20Z) - SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding [57.64806066986975]
3D Visual Groundingはテキスト記述に基づく3Dオブジェクトのローカライズを目的としている。
ゼロショットオープン語彙3DVGのための新しいビジュアルプログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-11-26T19:01:14Z) - Vision-Language Pre-training with Object Contrastive Learning for 3D
Scene Understanding [47.48443919164377]
3次元視覚言語下流タスクを柔軟に伝達するために,視覚言語事前学習フレームワークを提案する。
本稿では,セマンティック3次元シーン理解における3つの共通課題について検討し,事前学習モデルに対する重要な洞察を導出する。
実験は3つの3次元視覚言語タスクにおけるフレームワークの優れた性能を検証する。
論文 参考訳(メタデータ) (2023-05-18T05:25:40Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z) - 3D Concept Grounding on Neural Fields [99.33215488324238]
既存の視覚的推論手法は、典型的には、2Dセグメンテーションマスクを抽出するために教師付き手法を用いる。
人間は、画像の3D表現の基盤となる概念を基盤にすることができる。
我々は,ニューラルネットワークの連続的,微分可能な性質を利用して概念をセグメント化し,学習することを提案する。
論文 参考訳(メタデータ) (2022-07-13T17:59:33Z) - Self-supervised 3D Semantic Representation Learning for
Vision-and-Language Navigation [30.429893959096752]
ボクセルレベルの3Dセマンティック再構築を3Dセマンティック表現にエンコードする新しいトレーニングフレームワークを開発した。
LSTMに基づくナビゲーションモデルを構築し,提案した3Dセマンティック表現とBERT言語特徴を視覚言語ペア上で学習する。
実験の結果、提案手法は、R2Rデータセットの未確認分割とテスト未確認の検証において、成功率68%と66%を達成することがわかった。
論文 参考訳(メタデータ) (2022-01-26T07:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。