Fugu-MT 論文翻訳(概要): HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections

論文の概要: HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections

arxiv url: http://arxiv.org/abs/2404.16845v1
Date: Wed, 14 Feb 2024 14:02:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 11:39:16.565776
Title: HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections
Title（参考訳）: HaLo-NeRF: 制約のない写真コレクションを探索するための幾何ガイド付きセマンティック学習
Authors: Chen Dudai, Morris Alper, Hana Bezalel, Rana Hanocka, Itai Lang, Hadar Averbuch-Elor,
Abstract要約: 本稿では,大規模ランドマークを描写したシーンのニューラル表現と,シーン内の意味領域を記述したテキストを結合するローカライズシステムを提案する。我々のアプローチは、宇宙空間に物理的に接地した画像が、新しい概念をローカライズするための強力な監視信号を提供するという前提に基づいている。以上の結果から,HaLo-NeRFはアーキテクチャのランドマークに関連するさまざまな意味概念を正確にローカライズできることがわかった。
参考スコア（独自算出の注目度）: 19.05215193265488
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Internet image collections containing photos captured by crowds of photographers show promise for enabling digital exploration of large-scale tourist landmarks. However, prior works focus primarily on geometric reconstruction and visualization, neglecting the key role of language in providing a semantic interface for navigation and fine-grained understanding. In constrained 3D domains, recent methods have leveraged vision-and-language models as a strong prior of 2D visual semantics. While these models display an excellent understanding of broad visual semantics, they struggle with unconstrained photo collections depicting such tourist landmarks, as they lack expert knowledge of the architectural domain. In this work, we present a localization system that connects neural representations of scenes depicting large-scale landmarks with text describing a semantic region within the scene, by harnessing the power of SOTA vision-and-language models with adaptations for understanding landmark scene semantics. To bolster such models with fine-grained knowledge, we leverage large-scale Internet data containing images of similar landmarks along with weakly-related textual information. Our approach is built upon the premise that images physically grounded in space can provide a powerful supervision signal for localizing new concepts, whose semantics may be unlocked from Internet textual metadata with large language models. We use correspondences between views of scenes to bootstrap spatial understanding of these semantics, providing guidance for 3D-compatible segmentation that ultimately lifts to a volumetric scene representation. Our results show that HaLo-NeRF can accurately localize a variety of semantic concepts related to architectural landmarks, surpassing the results of other 3D models as well as strong 2D segmentation baselines. Our project page is at https://tau-vailab.github.io/HaLo-NeRF/.
Abstract（参考訳）: 写真家の群衆が撮影した写真を含むインターネット画像コレクションは、大規模な観光名所のデジタル探査を可能にすることを約束している。しかし、先行研究は主に幾何学的再構築と可視化に焦点を当てており、ナビゲーションときめ細かい理解のためのセマンティックインターフェースを提供する際の言語の主要な役割を無視している。制約付き3Dドメインでは、近年の手法は2次元視覚意味論の強い先行として視覚・言語モデルを活用している。これらのモデルは、広い視覚的意味論の優れた理解を示すが、建築分野の専門知識が欠如していることから、観光名所を描いた制約のない写真収集に苦慮している。本研究では,大規模ランドマークを描写したシーンのニューラル表現とシーン内の意味領域を記述するテキストを結合するローカライズシステムを提案する。このようなモデルをきめ細かな知識で強化するために、類似のランドマークの画像と弱い関係のあるテキスト情報を含む大規模インターネットデータを活用する。我々のアプローチは、空間に物理的に接地された画像が、新しい概念をローカライズするための強力な監視信号を提供するという前提に基づいており、その意味論は大きな言語モデルでインターネットのテキストメタデータから解き放たれる可能性がある。我々は、シーンのビュー間の対応を利用して、これらのセマンティクスの空間的理解をブートストラップし、3D互換セグメンテーションのガイダンスを提供する。以上の結果から,HaLo-NeRFは他の3次元モデルと強力な2次元セグメンテーションベースラインを超越して,建築ランドマークに関連するさまざまな意味概念を正確にローカライズできることが示唆された。私たちのプロジェクトページはhttps://tau-vailab.github.io/HaLo-NeRF/です。

関連論文リスト

Taking Language Embedded 3D Gaussian Splatting into the Wild [6.550474097747006]
制約のない写真コレクションからのオープン語彙シーン理解のための新しいフレームワークを提案する。具体的には、まず同じ視点から複数の外観画像を描画し、次に複数出現するCLIP特徴を抽出する。次に,言語特徴を効果的に圧縮し,学習し,融合させるための,過渡的不確実性を考慮したオートエンコーダ,多言語言語フィールド3DGS表現,および後アンサンブル戦略を提案する。
論文参考訳（メタデータ） (2025-07-26T07:00:32Z)
GenSpace: Benchmarking Spatially-Aware Image Generation [76.98817635685278]
人間は直感的に、写真のために3D空間でシーンを作成し、配置する。高度なAI画像生成者は、テキストや画像プロンプトから画像を作成する際に、同様の3D空間認識を備えたシーンを計画できるだろうか? 我々は、現在の画像生成モデルの空間的認識を評価するための新しいベンチマークと評価パイプラインであるGenSpaceを提案する。
論文参考訳（メタデータ） (2025-05-30T17:59:26Z)
VLScene: Vision-Language Guidance Distillation for Camera-Based 3D Semantic Scene Completion [35.34118012715217]
カメラベースの3Dセマンティックシーン補完(SSC)は、自律運転のための密集した幾何学的およびセマンティックな知覚を提供する。既存の手法では、オブジェクト間の明示的なセマンティックモデリングが欠如しており、3Dセマンティックコンテキストに対する認識が制限されている。 VLScene: Vision-Language Guidance Distillation for Camera-based 3D Semantic Scene Completionを提案する。
論文参考訳（メタデータ） (2025-03-08T13:40:52Z)
Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。 MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文参考訳（メタデータ） (2024-10-15T02:04:05Z)
AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文参考訳（メタデータ） (2024-07-11T03:18:53Z)
Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文参考訳（メタデータ） (2024-06-12T17:51:53Z)
Know Your Neighbors: Improving Single-View Reconstruction via Spatial Vision-Language Reasoning [119.99066522299309]
KYNは、各点の密度を予測するために意味的および空間的文脈を理由として、単一視点シーン再構築のための新しい手法である。その結果,KYNは3次元点ごとの密度の予測よりも3次元形状回復を改善することがわかった。我々は,KITTI-360のシーンとオブジェクトの再構成における最先端の成果を達成し,以前の作業と比べてゼロショットの一般化が向上したことを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:59Z)
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。 2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文参考訳（メタデータ） (2023-09-28T17:53:38Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
PLA: Language-Driven Open-Vocabulary 3D Scene Understanding [57.47315482494805]
オープン語彙シーン理解は、アノテートされたラベル空間を超えて見えないカテゴリをローカライズし、認識することを目的としている。最近の2次元オープン語彙認識のブレークスルーは、リッチな語彙概念を持つインターネットスケールのペア画像テキストデータによって駆動される。本稿では,3次元からの多視点画像のキャプションにより,事前学習された視覚言語(VL)基盤モデルに符号化された知識を抽出することを提案する。
論文参考訳（メタデータ） (2022-11-29T15:52:22Z)
Towers of Babel: Combining Images, Language, and 3D Geometry for Learning Multimodal Vision [50.07532560364523]
本稿では,字幕と階層的カテゴリ名という形で記述テキストを含む,ランドマーク写真コレクションの大規模データセットを提案する。 WikiScenesは、画像、テキスト、および3D幾何学を含むマルチモーダル推論のための新しいテストベッドを形成する。
論文参考訳（メタデータ） (2021-08-12T17:16:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。