論文の概要: SignSplat: Rendering Sign Language via Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2505.02108v1
- Date: Sun, 04 May 2025 13:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.42841
- Title: SignSplat: Rendering Sign Language via Gaussian Splatting
- Title(参考訳): SignSplat: ガウススプティングによる手話のレンダリング
- Authors: Maksym Ivashechkin, Oscar Mendez, Richard Bowden,
- Abstract要約: ガウススプラッティングによる条件付き人体レンダリングの最先端のアプローチは、通常、多くの視点から捉えた単純な身体の動きに焦点を当てる。
手話のようなより複雑なユースケースでは、大きな身体の動きよりも、手と顔の微妙で複雑な動きの方が重要になります。
これを実現するには、メッシュパラメータを制約して、微妙な人間の動きをモデル化できる少数のビューから正確なガウススプレイティングフレームワークを構築することに注力する。
- 参考スコア(独自算出の注目度): 33.9893684177763
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art approaches for conditional human body rendering via Gaussian splatting typically focus on simple body motions captured from many views. This is often in the context of dancing or walking. However, for more complex use cases, such as sign language, we care less about large body motion and more about subtle and complex motions of the hands and face. The problems of building high fidelity models are compounded by the complexity of capturing multi-view data of sign. The solution is to make better use of sequence data, ensuring that we can overcome the limited information from only a few views by exploiting temporal variability. Nevertheless, learning from sequence-level data requires extremely accurate and consistent model fitting to ensure that appearance is consistent across complex motions. We focus on how to achieve this, constraining mesh parameters to build an accurate Gaussian splatting framework from few views capable of modelling subtle human motion. We leverage regularization techniques on the Gaussian parameters to mitigate overfitting and rendering artifacts. Additionally, we propose a new adaptive control method to densify Gaussians and prune splat points on the mesh surface. To demonstrate the accuracy of our approach, we render novel sequences of sign language video, building on neural machine translation approaches to sign stitching. On benchmark datasets, our approach achieves state-of-the-art performance; and on highly articulated and complex sign language motion, we significantly outperform competing approaches.
- Abstract(参考訳): ガウススプラッティングによる条件付き人体レンダリングの最先端のアプローチは、通常、多くの視点から捉えた単純な身体の動きに焦点を当てる。
これはしばしばダンスやウォーキングの文脈で行われる。
しかし、手話のようなより複雑なユースケースでは、大きな身体の動きよりも、手と顔の微妙で複雑な動きの方が重要になります。
高忠実度モデルの構築の問題は、符号の多視点データを取得する複雑さによって複雑化されている。
解決策は、時系列データをよりよく利用し、時間的変動を利用して、少数のビューから限られた情報を克服できるようにすることです。
それでも、シーケンスレベルのデータから学ぶには、複雑な動きに対して外観が整合であることを保証するために、極めて正確で一貫したモデル適合が必要である。
これを実現するには、メッシュパラメータを制約して、微妙な人間の動きをモデル化できる少数のビューから正確なガウススプレイティングフレームワークを構築することに注力する。
我々はガウスパラメータの正規化手法を活用し、オーバーフィッティングや描画を緩和する。
さらに,メッシュ表面上のガウス点とプルースプレート点を密度化するための適応制御法を提案する。
提案手法の精度を示すため,手話ビデオの新しいシーケンスを描画し,手指縫合のためのニューラルネットワーク翻訳手法を構築した。
ベンチマークデータセットでは,提案手法は最先端の性能を実現し,高度に調音された複雑な手話の動きでは,競合するアプローチよりもはるかに優れていた。
関連論文リスト
- Controlling Avatar Diffusion with Learnable Gaussian Embedding [27.651478116386354]
我々は、最適化可能で、密度が高く、表現可能で、3次元一貫した新しい制御信号表現を導入する。
複数のポーズとアイデンティティを持つ大規模データセットを合成する。
我々のモデルは、現実主義、表現性、および3次元整合性の観点から、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-03-20T02:52:01Z) - SwiftSketch: A Diffusion Model for Image-to-Vector Sketch Generation [57.47730473674261]
我々は,画像条件付きベクトルスケッチ生成モデルであるSwiftSketchを紹介した。
SwiftSketchは、ガウス分布からサンプリングされたストローク制御ポイントを段階的に復調することによって動作する。
ControlSketchは、深度認識制御ネットを通じて正確な空間制御を組み込むことで、SDSベースの技術を強化する方法である。
論文 参考訳(メタデータ) (2025-02-12T18:57:12Z) - Monocular Dynamic Gaussian Splatting is Fast and Brittle but Smooth Motion Helps [14.35885714606969]
我々は多くのガウススプティングに基づく手法を組織化し、ベンチマークし、分析する。
その違いがパフォーマンスに与える影響を定量化します。
ガウス法に基づく手法の高速なレンダリング速度は、最適化の脆さを犠牲にしている。
論文 参考訳(メタデータ) (2024-12-05T18:59:08Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes [59.23385953161328]
動的シーンのための新しいビュー合成は、コンピュータビジョンとグラフィックスにおいて依然として難しい問題である。
本稿では,動的シーンの動作と外観を疎制御点と高密度ガウスに明示的に分解する新しい表現を提案する。
提案手法は,高忠実度な外観を維持しつつ,ユーザ制御のモーション編集を可能にする。
論文 参考訳(メタデータ) (2023-12-04T11:57:14Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Neural Face Models for Example-Based Visual Speech Synthesis [2.2817442144155207]
マルチビュー映像に基づく顔の動きキャプチャのためのマーカーレスアプローチを提案する。
アニメーション中の表情をシームレスに表現するために,表情のニューラル表現を学習する。
論文 参考訳(メタデータ) (2020-09-22T07:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。