論文の概要: Neural Radiance and Gaze Fields for Visual Attention Modeling in 3D Environments
- arxiv url: http://arxiv.org/abs/2503.07828v1
- Date: Mon, 10 Mar 2025 20:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:59.740623
- Title: Neural Radiance and Gaze Fields for Visual Attention Modeling in 3D Environments
- Title(参考訳): 3次元環境における視覚アテンションモデリングのためのニューラルラジアンスと注視場
- Authors: Andrei Chubarau, Yinan Wang, James J. Clark,
- Abstract要約: 我々は3次元シーンにおける視覚的注意パターンを表現するための新しいアプローチとしてニューラルレージアンスとゲイズフィールド(NeRGs)を紹介した。
本システムでは,予めトレーニングしたニューラルレージアンスフィールド(NeRF)を用いて3次元シーンの2次元ビューを描画し,任意の観測位置の視線場を可視化する。
- 参考スコア(独自算出の注目度): 6.311952721757901
- License:
- Abstract: We introduce Neural Radiance and Gaze Fields (NeRGs) as a novel approach for representing visual attention patterns in 3D scenes. Our system renders a 2D view of a 3D scene with a pre-trained Neural Radiance Field (NeRF) and visualizes the gaze field for arbitrary observer positions, which may be decoupled from the render camera perspective. We achieve this by augmenting a standard NeRF with an additional neural network that models the gaze probability distribution. The output of a NeRG is a rendered image of the scene viewed from the camera perspective and a pixel-wise salience map representing conditional probability that an observer fixates on a given surface within the 3D scene as visible in the rendered image. Much like how NeRFs perform novel view synthesis, NeRGs enable the reconstruction of gaze patterns from arbitrary perspectives within complex 3D scenes. To ensure consistent gaze reconstructions, we constrain gaze prediction on the 3D structure of the scene and model gaze occlusion due to intervening surfaces when the observer's viewpoint is decoupled from the rendering camera. For training, we leverage ground truth head pose data from skeleton tracking data or predictions from 2D salience models. We demonstrate the effectiveness of NeRGs in a real-world convenience store setting, where head pose tracking data is available.
- Abstract(参考訳): 我々は3次元シーンにおける視覚的注意パターンを表現するための新しいアプローチとしてニューラルレージアンスとゲイズフィールド(NeRGs)を紹介した。
本システムでは,予めトレーニングしたニューラルラジアンスフィールド(NeRF)を用いて3次元シーンの2次元ビューをレンダリングし,任意のオブザーバ位置の視界を可視化する。
我々は、視線確率分布をモデル化する追加のニューラルネットワークにより、標準のNeRFを増大させることにより、これを実現する。
NeRGの出力は、カメラ視点から見たシーンのレンダリング画像と、3Dシーン内の所定の面に、レンダリング画像で見えるように、オブザーバが固定する条件付き確率を表す画素単位のサリエンスマップとである。
NeRFが新しいビュー合成を行うのと同じように、NeRGは複雑な3Dシーン内の任意の視点から視線パターンを再構築することができる。
連続した視線再構成を確保するため、撮影カメラから視線を離す際に、シーンの3次元構造と干渉面による視線閉塞のモデル化を制約する。
トレーニングでは,スケルトン追跡データや2次元サリエンスモデルからの予測から,地上の真実の頭部ポーズデータを活用する。
実世界のコンビニエンスストアにおけるNeRGの有効性を示す。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Light Field Networks: Neural Scene Representations with
Single-Evaluation Rendering [60.02806355570514]
2次元観察から3Dシーンの表現を推定することは、コンピュータグラフィックス、コンピュータビジョン、人工知能の基本的な問題である。
そこで我々は,360度4次元光場における基礎となる3次元シーンの形状と外観の両面を表現した新しいニューラルシーン表現,光場ネットワーク(LFN)を提案する。
LFNからレイをレンダリングするには*single*ネットワークの評価しか必要としない。
論文 参考訳(メタデータ) (2021-06-04T17:54:49Z) - Equivariant Neural Rendering [22.95150913645939]
本稿では,3次元の監督なしに画像から直接ニューラルシーン表現を学習するためのフレームワークを提案する。
我々の重要な洞察は、学習された表現が本物の3Dシーンのように変換されることを保証することで、3D構造を課すことである。
私たちの定式化によって、推論に数分を要するモデルに匹敵する結果を得ながら、リアルタイムでシーンを推測および描画することが可能になります。
論文 参考訳(メタデータ) (2020-06-13T12:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。