論文の概要: POEM: Reconstructing Hand in a Point Embedded Multi-view Stereo
- arxiv url: http://arxiv.org/abs/2304.04038v2
- Date: Wed, 24 May 2023 05:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 01:36:11.143646
- Title: POEM: Reconstructing Hand in a Point Embedded Multi-view Stereo
- Title(参考訳): 詩:多視点ステレオの点埋め込みによる手再建
- Authors: Lixin Yang, Jian Xu, Licheng Zhong, Xinyu Zhan, Zhicheng Wang, Kejian
Wu, Cewu Lu
- Abstract要約: マルチビューステレオに埋め込まれた3Dポインツを動作させて手メッシュを再構築する,POEMという新しい手法を提案する。
そこで本手法は,複雑な3Dハンドメッシュを,1)多視点ステレオに埋め込まれた3Dポイントの集合で表現し,2)多視点画像から特徴を引き出す,3)手を取り囲む,という,シンプルで効果的なアイデアを念頭に置いている。
- 参考スコア(独自算出の注目度): 36.65231692599631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enable neural networks to capture 3D geometrical-aware features is essential
in multi-view based vision tasks. Previous methods usually encode the 3D
information of multi-view stereo into the 2D features. In contrast, we present
a novel method, named POEM, that directly operates on the 3D POints Embedded in
the Multi-view stereo for reconstructing hand mesh in it. Point is a natural
form of 3D information and an ideal medium for fusing features across views, as
it has different projections on different views. Our method is thus in light of
a simple yet effective idea, that a complex 3D hand mesh can be represented by
a set of 3D points that 1) are embedded in the multi-view stereo, 2) carry
features from the multi-view images, and 3) encircle the hand. To leverage the
power of points, we design two operations: point-based feature fusion and
cross-set point attention mechanism. Evaluation on three challenging multi-view
datasets shows that POEM outperforms the state-of-the-art in hand mesh
reconstruction. Code and models are available for research at
https://github.com/lixiny/POEM.
- Abstract(参考訳): マルチビューベースの視覚タスクでは,3次元幾何学的特徴を捉えるニューラルネットワークの実現が不可欠である。
従来の手法は通常、マルチビューステレオの3D情報を2D機能にエンコードする。
これとは対照的に,マルチビューステレオに埋め込まれた3Dポインツを直接操作してハンドメッシュを再構築する,POEMという新しい手法を提案する。
ポイントは3D情報の自然な形態であり、異なるビューに異なる投影があるため、ビュー間で特徴を融合させる理想的な媒体である。
したがって、複雑な3Dハンドメッシュを3Dポイントの集合で表現できるという、シンプルで効果的なアイデアを念頭に置いている。
1)はマルチビューステレオに埋め込まれる。
2)多視点画像の特徴を持ち、
3) 手を囲む。
ポイントのパワーを活用するために,ポイントベースの特徴融合とクロスセットポイントアテンション機構という2つの操作を設計する。
3つの挑戦的なマルチビューデータセットの評価は、POEMが手メッシュ再構築の最先端よりも優れていることを示している。
コードとモデルはhttps://github.com/lixiny/POEMで研究することができる。
関連論文リスト
- Multi-view Hand Reconstruction with a Point-Embedded Transformer [41.39843848486915]
この研究は、POEMという名前の新規で一般化可能なマルチビューハンドメッシュ再構成モデルを導入している。
POEMは実世界のハンドモーションキャプチャのシナリオで実用化するために設計されている。
論文 参考訳(メタデータ) (2024-08-20T06:42:17Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - 3D-LatentMapper: View Agnostic Single-View Reconstruction of 3D Shapes [0.0]
視覚変換器(ViT)の中間潜時空間と共同画像テキスト表現モデル(CLIP)を高速かつ効率的なシングルビュー再構成(SVR)に活用する新しいフレームワークを提案する。
本研究ではShapeNetV2データセットを用いてSOTA法との比較実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-05T11:45:26Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - RayTran: 3D pose estimation and shape reconstruction of multiple objects
from videos with ray-traced transformers [41.499325832227626]
RGBビデオからの多目的3D再構成のためのトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。
我々は、画像形成過程に関する知識を活用して、注意重み行列を著しく分散させる。
従来の手法と比較して、アーキテクチャは単一ステージであり、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2022-03-24T18:49:12Z) - 3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。
2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。