論文の概要: Pathformer3D: A 3D Scanpath Transformer for 360° Images
- arxiv url: http://arxiv.org/abs/2407.10563v1
- Date: Mon, 15 Jul 2024 09:24:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:40:56.933374
- Title: Pathformer3D: A 3D Scanpath Transformer for 360° Images
- Title(参考訳): Pathformer3D:360度画像のための3Dスキャンパス変換器
- Authors: Rong Quan, Yantao Lai, Mengyu Qiu, Dong Liang,
- Abstract要約: 360deg画像の既存のスキャンパス予測モデルは、2次元の正方形射影平面上でスキャンパス予測を実行するが、これは常に2次元平面の歪みと座標の不連続により大きな誤差をもたらす。
本研究では,3次元球面座標系における360deg画像の走査パス予測を行い,新しい3次元走査パス変換器Pathformer3Dを提案する。
- 参考スコア(独自算出の注目度): 1.8857725185112681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scanpath prediction in 360{\deg} images can help realize rapid rendering and better user interaction in Virtual/Augmented Reality applications. However, existing scanpath prediction models for 360{\deg} images execute scanpath prediction on 2D equirectangular projection plane, which always result in big computation error owing to the 2D plane's distortion and coordinate discontinuity. In this work, we perform scanpath prediction for 360{\deg} images in 3D spherical coordinate system and proposed a novel 3D scanpath Transformer named Pathformer3D. Specifically, a 3D Transformer encoder is first used to extract 3D contextual feature representation for the 360{\deg} image. Then, the contextual feature representation and historical fixation information are input into a Transformer decoder to output current time step's fixation embedding, where the self-attention module is used to imitate the visual working memory mechanism of human visual system and directly model the time dependencies among the fixations. Finally, a 3D Gaussian distribution is learned from each fixation embedding, from which the fixation position can be sampled. Evaluation on four panoramic eye-tracking datasets demonstrates that Pathformer3D outperforms the current state-of-the-art methods. Code is available at https://github.com/lsztzp/Pathformer3D .
- Abstract(参考訳): 360{\deg}イメージのスキャンパス予測は、バーチャル/拡張現実アプリケーションにおける高速なレンダリングとより良いユーザインタラクションを実現するのに役立つ。
しかし、既存の360{\deg}画像のスキャンパス予測モデルは、2次元の正方形射影平面上でスキャンパス予測を実行するため、常に2次元平面の歪みと座標の不連続により大きな計算誤差が発生する。
本研究では,3次元球面座標系における360{\deg}画像の走査パス予測を行い,新しい3次元走査パス変換器Pathformer3Dを提案する。
具体的には、まず3Dトランスフォーマーエンコーダを使用して、360{\deg}画像の3Dコンテキスト特徴表現を抽出する。
そして、コンテクスト特徴表現と履歴固定情報をトランスフォーマーデコーダに入力し、現在の時間ステップの固定埋め込みを出力し、自己注意モジュールを使用して人間の視覚系の視覚的動作記憶機構を模倣し、固定間の時間依存性を直接モデル化する。
最後に、各固定埋め込みから3次元ガウス分布を学習し、そこから固定位置をサンプリングすることができる。
4つのパノラマ眼球追跡データセットの評価は、Pathformer3Dが現在の最先端手法よりも優れていることを示している。
コードはhttps://github.com/lsztzp/Pathformer3Dで入手できる。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。
我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。
この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文 参考訳(メタデータ) (2024-06-26T15:18:20Z) - GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文 参考訳(メタデータ) (2023-12-14T08:39:39Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - SGAT4PASS: Spherical Geometry-Aware Transformer for PAnoramic Semantic
Segmentation [53.5256153325136]
PAnoramic Semantic (PASS) は、超広視野の視点に基づく完全なシーン認識を提供する。
通常、2次元パノラマ画像入力を持つPASS法は、画像歪みの解消に重点を置いているが、元の360円のデータの3D特性を考慮していない。
Panoramic Semantic (SGAT4PASS) のための球面形状認識変換器を提案する。
論文 参考訳(メタデータ) (2023-06-06T04:49:51Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - RayTran: 3D pose estimation and shape reconstruction of multiple objects
from videos with ray-traced transformers [41.499325832227626]
RGBビデオからの多目的3D再構成のためのトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。
我々は、画像形成過程に関する知識を活用して、注意重み行列を著しく分散させる。
従来の手法と比較して、アーキテクチャは単一ステージであり、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2022-03-24T18:49:12Z) - A Shading-Guided Generative Implicit Model for Shape-Accurate 3D-Aware
Image Synthesis [163.96778522283967]
そこで本研究では,シェーディング誘導型生成暗黙モデルを提案する。
正確な3D形状は、異なる照明条件下でリアルなレンダリングをもたらす必要がある。
複数のデータセットに対する実験により,提案手法が光リアルな3次元画像合成を実現することを示す。
論文 参考訳(メタデータ) (2021-10-29T10:53:12Z) - ImplicitVol: Sensorless 3D Ultrasound Reconstruction with Deep Implicit
Representation [13.71137201718831]
本研究の目的は, 深い暗示表現を持つ2次元自由手超音波画像の集合から, 3次元ボリュームのセンサレス再構成を実現することである。
3次元体積を離散ボクセル格子として表現する従来の方法とは対照的に、連続函数のゼロレベル集合としてパラメータ化することでそうする。
提案モデルでは,インプリシットボル(ImplicitVol)が入力として2Dスキャンと推定位置を3Dで抽出し,推定した3D位置を共同で再現し,3Dボリュームの完全な再構築を学習する。
論文 参考訳(メタデータ) (2021-09-24T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。