論文の概要: Voxel-informed Language Grounding
- arxiv url: http://arxiv.org/abs/2205.09710v1
- Date: Thu, 19 May 2022 17:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:00:00.225042
- Title: Voxel-informed Language Grounding
- Title(参考訳): Voxel-informed Language Grounding
- Authors: Rodolfo Corona, Shizhan Zhu, Dan Klein, Trevor Darrell
- Abstract要約: 本稿では,Voxel-informed Language Grounder (VLG)について述べる。
執筆時点では、VLGはSNAREのリーダーボードでトップであり、SOTAの結果を2.0%の絶対的な改善で達成しています。
- 参考スコア(独自算出の注目度): 101.95527569989731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language applied to natural 2D images describes a fundamentally 3D
world. We present the Voxel-informed Language Grounder (VLG), a language
grounding model that leverages 3D geometric information in the form of voxel
maps derived from the visual input using a volumetric reconstruction model. We
show that VLG significantly improves grounding accuracy on SNARE, an object
reference game task. At the time of writing, VLG holds the top place on the
SNARE leaderboard, achieving SOTA results with a 2.0% absolute improvement.
- Abstract(参考訳): 自然の2D画像に適用される自然言語は、基本的に3Dの世界を記述する。
本稿では,Voxel-informed Language Grounder (VLG)について述べる。VLGは3次元幾何情報を利用する言語基盤モデルである。
VLGはオブジェクト参照ゲームタスクであるSNAREの接地精度を大幅に向上することを示す。
執筆時点では、VLGはSNAREのリーダーボードでトップであり、SOTAの結果を2.0%の絶対的な改善で達成しています。
関連論文リスト
- SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene
Understanding [39.085879587406694]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。
約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。
このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文 参考訳(メタデータ) (2024-01-17T17:04:35Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic
Alignment [28.20485007260061]
既存の3Dビジュアルグラウンドのアプローチでは、テキストクエリのバウンディングボックスアノテーションがかなり必要になります。
textbfVisual textbfLinguistic textbfAlignment に基づいたtextbf3Dビジュアルグラウンドの弱教師付きアプローチである textbf3D-VLA を提案する。
我々の3D-VLAは、テキストと2D画像間のセマンティクスの整合において、現在の大規模視覚言語モデル(VLM)の優れた能力を利用する。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation [44.58709274218105]
この研究は、蒸留された特徴場を利用して2次元基礎モデルのリッチなセマンティクスと正確な3次元幾何学を組み合わせることにより、ロボット操作のための2次元から3次元のギャップを橋渡しする。
そこで本研究では,これらの空間的および意味的先行性を利用した6-DOFの把握と配置のための数ショットの学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T17:59:14Z) - High-Fidelity 3D Face Generation from Natural Language Descriptions [12.22081892575208]
本論では,1) 記述的テキストアノテーションによる高品質な3次元顔データ不足,2) 記述的言語空間と形状・外観空間との複雑なマッピング関係について論じる。
Describe3Dデータセットは、テキストから3Dの顔生成タスクのためのきめ細かいテキスト記述を備えた最初の大規模データセットである。
まず, 具体的記述と一致する3次元顔を生成するための2段階のフレームワークを提案し, 抽象的記述を用いて3次元形状とテクスチャ空間のパラメータを最適化し, 3次元顔モデルを洗練する。
論文 参考訳(メタデータ) (2023-05-05T06:10:15Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with
Multi-modal Visual Data and Natural Language [21.33863007110277]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。
本研究では,画像の外観特徴,点雲の位置と幾何学的特徴,および連続的な入力フレームにおける動的特徴を言語の意味的特徴にマッチさせる手法であるWildReferを提案する。
われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-04-12T06:48:26Z) - Learning from Unlabeled 3D Environments for Vision-and-Language
Navigation [87.03299519917019]
視覚言語ナビゲーション(VLN)では、自然言語の指示に従って現実的な3D環境をナビゲートするために、具体的エージェントが必要である。
我々はHM3Dから900の未ラベルの3Dビルディングから大規模VLNデータセットを自動生成することを提案する。
実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-08-24T21:50:20Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z) - Lifting 2D StyleGAN for 3D-Aware Face Generation [52.8152883980813]
我々は,3次元顔生成のための事前学習済みのStyleGAN2を切断し,持ち上げるLiftedGANというフレームワークを提案する。
本モデルは,(1)StyleGAN2の潜伏空間をテクスチャ,形状,視点,照明に分解し,(2)合成画像のための3D成分を生成することができるという意味で「3D認識」である。
論文 参考訳(メタデータ) (2020-11-26T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。