論文の概要: Bimanual 3D Hand Motion and Articulation Forecasting in Everyday Images
- arxiv url: http://arxiv.org/abs/2510.06145v1
- Date: Tue, 07 Oct 2025 17:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.379332
- Title: Bimanual 3D Hand Motion and Articulation Forecasting in Everyday Images
- Title(参考訳): 日常画像における2次元手の動きと構音予測
- Authors: Aditya Prakash, David Forsyth, Saurabh Gupta,
- Abstract要約: 日常的な環境下での1つの画像から2次元手の動きと調音を予測する問題に対処する。
各種設定における3次元手指アノテーションの欠如に対処するため、2次元手指キーポイントシーケンスを4次元手指の動きに引き上げるための拡散モデルからなるアノテーションパイプラインを設計する。
予測モデルでは,手動分布の多モード性を考慮した拡散損失を考慮に入れた。
- 参考スコア(独自算出の注目度): 10.169697629767606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of forecasting bimanual 3D hand motion & articulation from a single image in everyday settings. To address the lack of 3D hand annotations in diverse settings, we design an annotation pipeline consisting of a diffusion model to lift 2D hand keypoint sequences to 4D hand motion. For the forecasting model, we adopt a diffusion loss to account for the multimodality in hand motion distribution. Extensive experiments across 6 datasets show the benefits of training on diverse data with imputed labels (14% improvement) and effectiveness of our lifting (42% better) & forecasting (16.4% gain) models, over the best baselines, especially in zero-shot generalization to everyday images.
- Abstract(参考訳): 日常的な環境下での1つの画像から2次元手の動きと調音を予測する問題に対処する。
各種設定における3次元手指アノテーションの欠如に対処するため、2次元手指キーポイントシーケンスを4次元手指の動きに引き上げるための拡散モデルからなるアノテーションパイプラインを設計する。
予測モデルでは,手動分布の多モード性を考慮した拡散損失を考慮に入れた。
6つのデータセットにまたがる広範囲な実験は、特に日常画像へのゼロショット一般化において、様々なデータに対するトレーニングの利点(改善率14%)と、リフトと予測モデルの有効性(改善率42%)が、最高のベースライン、特にゼロショットの一般化よりも優れていることを示している。
関連論文リスト
- 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。
3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。
非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-02T17:58:03Z) - 3D Hand Pose Estimation in Everyday Egocentric Images [12.964086079352262]
我々は、視線歪みと野生における3Dアノテーションの欠如から生じる課題に焦点を当てる。
日常の自我中心画像における3次元手ポーズ推定システムWildHandsを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:15:47Z) - Denoising Diffusion for 3D Hand Pose Estimation from Images [38.20064386142944]
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
論文 参考訳(メタデータ) (2023-08-18T12:57:22Z) - AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand
Pose Estimation [26.261767086366866]
正確な3Dハンドポーズアノテーションを備えた大規模ベンチマークデータセットである AssemblyHands を提示する。
AssemblyHandsは490Kのエゴセントリックなイメージを含む3.0Mの注釈付きイメージを提供する。
我々の研究は、高品質の手のポーズが、行動を認識する能力を直接的に改善することを示しています。
論文 参考訳(メタデータ) (2023-04-24T17:52:57Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。