Fugu-MT 論文翻訳(概要): Voxel-informed Language Grounding

論文の概要: Voxel-informed Language Grounding

arxiv url: http://arxiv.org/abs/2205.09710v1
Date: Thu, 19 May 2022 17:24:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-20 12:00:00.225042
Title: Voxel-informed Language Grounding
Title（参考訳）: Voxel-informed Language Grounding
Authors: Rodolfo Corona, Shizhan Zhu, Dan Klein, Trevor Darrell
Abstract要約: 本稿では,Voxel-informed Language Grounder (VLG)について述べる。執筆時点では、VLGはSNAREのリーダーボードでトップであり、SOTAの結果を2.0%の絶対的な改善で達成しています。
参考スコア（独自算出の注目度）: 101.95527569989731
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language applied to natural 2D images describes a fundamentally 3D world. We present the Voxel-informed Language Grounder (VLG), a language grounding model that leverages 3D geometric information in the form of voxel maps derived from the visual input using a volumetric reconstruction model. We show that VLG significantly improves grounding accuracy on SNARE, an object reference game task. At the time of writing, VLG holds the top place on the SNARE leaderboard, achieving SOTA results with a 2.0% absolute improvement.
Abstract（参考訳）: 自然の2D画像に適用される自然言語は、基本的に3Dの世界を記述する。本稿では,Voxel-informed Language Grounder (VLG)について述べる。VLGは3次元幾何情報を利用する言語基盤モデルである。 VLGはオブジェクト参照ゲームタスクであるSNAREの接地精度を大幅に向上することを示す。執筆時点では、VLGはSNAREのリーダーボードでトップであり、SOTAの結果を2.0%の絶対的な改善で達成しています。

関連論文リスト

Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文参考訳（メタデータ） (2025-05-30T16:06:32Z)
Zero-Shot 3D Visual Grounding from Vision-Language Models [10.81711535075112]
3Dビジュアルグラウンド(3DVG)は、自然言語記述を用いて、3Dシーンで対象物を見つけることを目的としている。 SeeGroundは、2Dビジョンランゲージモデル(VLM)を活用するゼロショット3DVGフレームワークで、3D特有のトレーニングの必要性を回避します。
論文参考訳（メタデータ） (2025-05-28T14:53:53Z)
VoxRep: Enhancing 3D Spatial Understanding in 2D Vision-Language Models via Voxel Representation [0.0]
ボクセルグリッドは3次元空間の構造的表現を提供するが、高レベルの意味を抽出することは依然として困難である。本稿では,VLM(Vision-Language Model)を用いて,ボクセルデータから"voxel semantics"オブジェクトの識別,色,位置を抽出する手法を提案する。
論文参考訳（メタデータ） (2025-03-27T07:07:11Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文参考訳（メタデータ） (2024-11-26T01:54:52Z)
Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation [67.36775428466045]
2次元事前学習モデルから優れた3次元表現を学習するための幾何学ガイド自己蒸留(GGSD)を提案する。 3D表現の利点により、蒸留した3D学生モデルの性能は2D教師モデルよりも大幅に上回ることができる。
論文参考訳（メタデータ） (2024-07-18T10:13:56Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding [37.47195477043883]
3D視覚言語グラウンドリングは、言語と3D物理環境の整合性に焦点を当て、エンボディエージェントの開発の基盤となっている。約68Kの屋内シーンを含む最初の100万スケールの3Dビジョン言語データセットであるSceneVerseを紹介した。このスケーリングにより、3次元視覚言語学習のための一貫した事前学習フレームワーク、Grounded Pre-training for Scenes (GPS) が実現可能であることを実証する。
論文参考訳（メタデータ） (2024-01-17T17:04:35Z)
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文参考訳（メタデータ） (2023-12-15T09:08:14Z)
Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation [44.58709274218105]
この研究は、蒸留された特徴場を利用して2次元基礎モデルのリッチなセマンティクスと正確な3次元幾何学を組み合わせることにより、ロボット操作のための2次元から3次元のギャップを橋渡しする。そこで本研究では,これらの空間的および意味的先行性を利用した6-DOFの把握と配置のための数ショットの学習手法を提案する。
論文参考訳（メタデータ） (2023-07-27T17:59:14Z)
CLIP-Guided Vision-Language Pre-training for Question Answering in 3D Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文参考訳（メタデータ） (2023-04-12T16:52:29Z)
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language [31.691159120136064]
本稿では,自然言語記述とオンラインキャプチャによるマルチモーダル視覚データに基づく大規模動的シーンにおける3次元視覚接地作業について紹介する。本研究では,画像中のリッチな外観情報,位置,および点雲中の幾何学的手がかりをフル活用して,WildReferという新しい手法を提案する。われわれのデータセットは、野生の3Dビジュアルグラウンドの研究にとって重要なものであり、自動運転とサービスロボットの開発を促進する大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-04-12T06:48:26Z)
SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文参考訳（メタデータ） (2021-05-24T17:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。