論文の概要: Spectral Graphormer: Spectral Graph-based Transformer for Egocentric
Two-Hand Reconstruction using Multi-View Color Images
- arxiv url: http://arxiv.org/abs/2308.11015v1
- Date: Mon, 21 Aug 2023 20:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:58:53.562208
- Title: Spectral Graphormer: Spectral Graph-based Transformer for Egocentric
Two-Hand Reconstruction using Multi-View Color Images
- Title(参考訳): スペクトルグラフオーマー:マルチビューカラー画像を用いたエゴセントリック2手再構成のためのスペクトルグラフベース変換器
- Authors: Tze Ho Elden Tse, Franziska Mueller, Zhengyang Shen, Danhang Tang,
Thabo Beeler, Mingsong Dou, Yinda Zhang, Sasa Petrovic, Hyung Jin Chang,
Jonathan Taylor, Bardia Doosti
- Abstract要約: マルチビューRGB画像から2つの高忠実度ハンドを再構成するトランスフォーマーベースの新しいフレームワークを提案する。
本研究では, 実データへの合成学習モデルの一般化を実証し, 現実的な両手再構成を実現できることを示す。
- 参考スコア(独自算出の注目度): 33.70056950818641
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel transformer-based framework that reconstructs two high
fidelity hands from multi-view RGB images. Unlike existing hand pose estimation
methods, where one typically trains a deep network to regress hand model
parameters from single RGB image, we consider a more challenging problem
setting where we directly regress the absolute root poses of two-hands with
extended forearm at high resolution from egocentric view. As existing datasets
are either infeasible for egocentric viewpoints or lack background variations,
we create a large-scale synthetic dataset with diverse scenarios and collect a
real dataset from multi-calibrated camera setup to verify our proposed
multi-view image feature fusion strategy. To make the reconstruction physically
plausible, we propose two strategies: (i) a coarse-to-fine spectral graph
convolution decoder to smoothen the meshes during upsampling and (ii) an
optimisation-based refinement stage at inference to prevent self-penetrations.
Through extensive quantitative and qualitative evaluations, we show that our
framework is able to produce realistic two-hand reconstructions and demonstrate
the generalisation of synthetic-trained models to real data, as well as
real-time AR/VR applications.
- Abstract(参考訳): マルチビューRGB画像から2つの高忠実度ハンドを再構成するトランスフォーマーベースのフレームワークを提案する。
単一のrgb画像からモデルパラメータをレグレッションするためにディープネットワークを通常訓練する既存のハンドポーズ推定法とは異なり、エゴセントリックな視点から高分解能で拡張前腕を持つ両手の絶対ルートポーズを直接レグレッションするより難しい問題設定を考える。
既存のデータセットは、エゴセントリックな視点では実現できないか、背景のバリエーションがないため、多様なシナリオを持つ大規模な合成データセットを作成し、マルチライブラリカメラセットアップから実際のデータセットを収集し、提案するマルチビュー画像特徴融合戦略を検証する。
再建を物理的に可能なものにするために,我々は2つの戦略を提案する。
(i)アップサンプリング時にメッシュを平滑化する粗度から細度までのスペクトルグラフ畳み込みデコーダ
二 自己侵入を防止するため、推定時の最適化に基づく改善段階
広範に定量的かつ定性的な評価を行うことにより,我々のフレームワークは,実時間AR/VRアプリケーションだけでなく,実データへの合成学習モデルの一般化を実証できることを示す。
関連論文リスト
- Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks [50.822601495422916]
本稿では,露光ブラケット写真を利用して画像復元と拡張作業を統合することを提案する。
実世界のペアの収集が困難であるため,まず合成ペアデータを用いてモデルを事前学習する手法を提案する。
特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - Towards Scalable Multi-View Reconstruction of Geometry and Materials [27.660389147094715]
本稿では,3次元シーンのカメラポーズ,オブジェクト形状,空間変化の両方向反射分布関数(svBRDF)のジョイントリカバリ手法を提案する。
入力は高解像度のRGBD画像であり、アクティブ照明用の点灯付き携帯型ハンドヘルドキャプチャシステムによってキャプチャされる。
論文 参考訳(メタデータ) (2023-06-06T15:07:39Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Rethinking Blur Synthesis for Deep Real-World Image Deblurring [4.00114307523959]
本稿では,撮影過程をシミュレートする,新しいリアルなボケ合成パイプラインを提案する。
機能領域における非局所的依存関係と局所的コンテキストを同時にキャプチャする効果的なデブロアリングモデルを開発する。
3つの実世界のデータセットに関する総合的な実験により、提案したデブロアリングモデルは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-09-28T06:50:16Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。