論文の概要: SplaTraj: Camera Trajectory Generation with Semantic Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2410.06014v1
- Date: Tue, 8 Oct 2024 13:16:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:40:34.081544
- Title: SplaTraj: Camera Trajectory Generation with Semantic Gaussian Splatting
- Title(参考訳): SplaTraj:Semantic Gaussian Splattingによるカメラ軌道生成
- Authors: Xinyi Liu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi,
- Abstract要約: 本稿では,ユーザ入力言語が与える命令にマッチするガウススプラッティングモデルから画像のシーケンスを生成することに焦点を当てる。
本研究では,光現実的環境表現における画像生成を定式化した新しいフレームワークSplaTrajを提案する。
本研究では,環境と命令の集合に対するアプローチを実証的に評価し,生成した画像シーケンスの品質を実証する。
- 参考スコア(独自算出の注目度): 19.642061295302042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent developments for robots to represent environments have focused on photorealistic reconstructions. This paper particularly focuses on generating sequences of images from the photorealistic Gaussian Splatting models, that match instructions that are given by user-inputted language. We contribute a novel framework, SplaTraj, which formulates the generation of images within photorealistic environment representations as a continuous-time trajectory optimization problem. Costs are designed so that a camera following the trajectory poses will smoothly traverse through the environment and render the specified spatial information in a photogenic manner. This is achieved by querying a photorealistic representation with language embedding to isolate regions that correspond to the user-specified inputs. These regions are then projected to the camera's view as it moves over time and a cost is constructed. We can then apply gradient-based optimization and differentiate through the rendering to optimize the trajectory for the defined cost. The resulting trajectory moves to photogenically view each of the specified objects. We empirically evaluate our approach on a suite of environments and instructions, and demonstrate the quality of generated image sequences.
- Abstract(参考訳): ロボットが環境を表現するための最近の多くの開発は、フォトリアリスティックな再構築に焦点を当てている。
本稿では,ユーザ入力言語が与える命令にマッチする,フォトリアリスティックなガウススプラッティングモデルから画像のシーケンスを生成することに焦点を当てる。
本研究では,連続時間軌道最適化問題として,光現実的環境表現における画像生成を定式化した新しいフレームワークSplaTrajを提案する。
トラジェクティブポーズに続くカメラが環境をスムーズに横切るように設計され、指定された空間情報をフォトジェニックな方法でレンダリングする。
これは、ユーザが指定した入力に対応する分離された領域に言語を埋め込み、フォトリアリスティックな表現をクエリすることで実現される。
これらの領域は、時間が経つにつれてカメラの視点に投影され、コストがかかる。
次に、勾配に基づく最適化を適用し、レンダリングを通して差別化して、定義されたコストに対して軌道を最適化する。
結果として得られる軌道は、指定された対象のそれぞれをフォトジェニックに見るために動く。
本研究では,環境と命令の集合に対するアプローチを実証的に評価し,生成した画像シーケンスの品質を実証する。
関連論文リスト
- GS-EVT: Cross-Modal Event Camera Tracking based on Gaussian Splatting [19.0745952177123]
本稿では,モーショントラッキングにおけるイベントカメラの利用について検討する。
難解なダイナミクスと照明の下で、固有の堅牢性を備えたソリューションを提供する。
フレームベースのカメラから直接来る地図表現を追跡する。
論文 参考訳(メタデータ) (2024-09-28T03:56:39Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting [24.160436463991495]
本稿では3次元ガウスアンをシーン表現として用いたSLAM法を提案する。
本手法は,実世界のシングルカメラRGBDビデオから,インタラクティブなリアルタイム再構成と写真リアルレンダリングを実現する。
論文 参考訳(メタデータ) (2023-12-06T10:47:53Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - DIB-R++: Learning to Predict Lighting and Material with a Hybrid
Differentiable Renderer [78.91753256634453]
そこで本研究では,単体画像から固有物体特性を推定する難題について,微分可能量を用いて検討する。
そこで本研究では、スペクトル化とレイトレーシングを組み合わせることで、これらの効果をサポートするハイブリッド微分可能なDIBR++を提案する。
より高度な物理ベースの微分可能値と比較すると、DIBR++はコンパクトで表現力のあるモデルであるため、高い性能を持つ。
論文 参考訳(メタデータ) (2021-10-30T01:59:39Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Dynamic Object Removal and Spatio-Temporal RGB-D Inpainting via
Geometry-Aware Adversarial Learning [9.150245363036165]
動的物体はロボットの環境に対する認識に大きな影響を及ぼす。
本研究は,動的物体によって隠蔽された領域における可塑性色,テクスチャ,幾何学を合成することにより,この問題に対処する。
本研究は, 対人訓練を用いて建築を最適化し, オンラインで色と深度構造を幻覚できるような, 微妙な現実的なテクスチャを合成する。
論文 参考訳(メタデータ) (2020-08-12T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。