論文の概要: Fast SAM 3D Body: Accelerating SAM 3D Body for Real-Time Full-Body Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2603.15603v1
- Date: Mon, 16 Mar 2026 17:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.71858
- Title: Fast SAM 3D Body: Accelerating SAM 3D Body for Real-Time Full-Body Human Mesh Recovery
- Title(参考訳): 高速SAM3Dボディ:リアルタイムフルボディ人間メッシュ回収のためのSAM3Dボディの高速化
- Authors: Timing Yang, Sicheng He, Hongyi Jing, Jiawei Yang, Zhijian Liu, Chuhang Zou, Yue Wang,
- Abstract要約: SAM 3D Body (3DB)は、モノクロの3Dメッシュリカバリにおいて最先端の精度を達成するが、画像1枚あたりの遅延推定はリアルタイムアプリケーションを妨げる。
我々は,対話的な速度を達成するために,3DB推論経路を再構成するトレーニングフリー加速フレームワークであるFast SAM 3D Bodyを提案する。
- 参考スコア(独自算出の注目度): 14.068201519983058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SAM 3D Body (3DB) achieves state-of-the-art accuracy in monocular 3D human mesh recovery, yet its inference latency of several seconds per image precludes real-time application. We present Fast SAM 3D Body, a training-free acceleration framework that reformulates the 3DB inference pathway to achieve interactive rates. By decoupling serial spatial dependencies and applying architecture-aware pruning, we enable parallelized multi-crop feature extraction and streamlined transformer decoding. Moreover, to extract the joint-level kinematics (SMPL) compatible with existing humanoid control and policy learning frameworks, we replace the iterative mesh fitting with a direct feedforward mapping, accelerating this specific conversion by over 10,000x. Overall, our framework delivers up to a 10.9x end-to-end speedup while maintaining on-par reconstruction fidelity, even surpassing 3DB on benchmarks such as LSPET. We demonstrate its utility by deploying Fast SAM 3D Body in a vision-only teleoperation system that-unlike methods reliant on wearable IMUs-enables real-time humanoid control and the direct collection of manipulation policies from a single RGB stream.
- Abstract(参考訳): SAM 3D Body (3DB)は、モノクロの3Dメッシュリカバリにおいて最先端の精度を達成するが、画像1枚につき数秒の推論遅延はリアルタイムアプリケーションを妨げる。
我々は,対話的な速度を達成するために,3DB推論経路を再構成するトレーニングフリー加速フレームワークであるFast SAM 3D Bodyを提案する。
逐次空間依存の分離とアーキテクチャ対応プルーニングの適用により、並列化されたマルチクロップ特徴抽出と合理化トランスフォーマーデコーディングが可能となる。
さらに、既存のヒューマノイド制御および政策学習フレームワークと互換性のある関節レベルキネマティクス(SMPL)を抽出するために、反復メッシュフィッティングを直接フィードフォワードマッピングに置き換え、この特定の変換を1万倍以上高速化する。
全体として、当社のフレームワークは、LSPETなどのベンチマークで3DBを超えながら、オンパーレコメンデーションの忠実さを維持しながら、最大10.9倍のエンドツーエンドのスピードアップを実現しています。
我々は,ウェアラブルIMUによるリアルタイムヒューマノイド制御と,単一のRGBストリームからの操作ポリシーの直接収集に依存しない,視覚のみの遠隔操作システムに,Fast SAM 3D Bodyを配置することで,その実用性を実証する。
関連論文リスト
- Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints [87.13154261503168]
モーションコントロール可能なビデオ生成は、仮想現実と組み込みAIにおけるエゴセントリックなアプリケーションに不可欠である。
既存の手法は、しばしば3D一貫性のきめ細かい手話を実現するのに苦労する。
単一の参照フレームからエゴセントリックなビデオを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-12T10:02:23Z) - Stereo-Inertial Poser: Towards Metric-Accurate Shape-Aware Motion Capture Using Sparse IMUs and a Single Stereo Camera [54.967647497048205]
本稿では,距離精度と形状を考慮した3次元動作を推定するリアルタイムモーションキャプチャシステムであるStereo-Inertial Poserを提案する。
モノクラーRGBをステレオビジョンに置き換え、直接3次元キーポイント抽出と形状パラメータ推定を可能にした。
ドリフトフリーなグローバル翻訳を長い記録時間で生成し,フットスケート効果を低減させる。
論文 参考訳(メタデータ) (2026-03-02T17:46:38Z) - UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models [54.564740558030245]
UCMは、長期記憶と正確なカメラ制御をタイムアウェアな位置符号化変換機構を介して統合する新しいフレームワークである。
我々はまた、ポイントクラウドベースのレンダリングを利用したスケーラブルなデータキュレーション戦略を導入し、シーンの再考をシミュレートする。
論文 参考訳(メタデータ) (2026-02-26T12:54:46Z) - Mon3tr: Monocular 3D Telepresence with Pre-built Gaussian Avatars as Amortization [16.68162021163563]
Mon3trは、3Dガウススプラッティング(3DGS)に基づくパラメトリック人間モデリングを統合する新しいモノクル3Dテレプレゼンスフレームワークである。
単眼のRGBカメラは、身体の動きや表情をリアルタイムで捉え、3DGSベースのパラメトリック人間モデルを駆動するために使用される。
提案手法は,新しいポーズに対するPSNR > 28 dB,80msのエンドツーエンドレイテンシ,1000倍の帯域幅削減を実現する。
論文 参考訳(メタデータ) (2026-01-12T13:17:41Z) - Particulate: Feed-Forward 3D Object Articulation [89.78788418174946]
Particulateは、毎日のオブジェクトの1つの静的3Dメッシュが与えられたフィードフォワードアプローチであり、基盤となる関節構造のすべての属性を直接推論する。
私たちは、公開データセットから多種多様な3Dアセットの集合に基づいて、ネットワークのエンドツーエンドをトレーニングします。
推論中、Particulateはネットワークのフィードフォワード予測を入力メッシュに持ち上げ、完全に調音された3Dモデルを数秒で生成する。
論文 参考訳(メタデータ) (2025-12-12T18:59:51Z) - SAM-Body4D: Training-Free 4D Human Body Mesh Recovery from Videos [53.227781131348856]
Human Mesh Recoveryは、2Dの観察から3Dのポーズと形状を再構築することを目的としている。
近年のSAM 3D Bodyのような画像ベースHMR法は,線内画像に対して強靭性を実現している。
ビデオからの時間的一貫した閉塞性HMRのためのトレーニングフリーフレームワークSAM-Body4Dを提案する。
論文 参考訳(メタデータ) (2025-12-09T09:37:31Z) - Visual Odometry with Transformers [68.453547770334]
特徴抽出により単眼フレームのシーケンスを処理するビジュアル・オドメトリ・トランスフォーマ(VoT)を導入する。
従来の方法とは異なり、VoTは密度の高い幾何学を推定することなくカメラの動きを直接予測し、監視のためにカメラのポーズのみに依存する。
VoTは、より大きなデータセットで効果的にスケールし、より強力なトレーニング済みバックボーンの恩恵を受け、多様なカメラモーションとキャリブレーション設定を一般化し、従来のメソッドよりも3倍以上高速に動作しながらパフォーマンスを向上する。
論文 参考訳(メタデータ) (2025-10-02T17:00:14Z) - BoxFusion: Reconstruction-Free Open-Vocabulary 3D Object Detection via Real-Time Multi-View Box Fusion [20.654924800044746]
本稿では,メモリ効率とリアルタイム3D検出に適した,再構成不要な新しいオンラインフレームワークを提案する。
本手法は,オンライン手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-18T16:40:05Z) - Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。
従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。
仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文 参考訳(メタデータ) (2025-05-08T15:28:09Z) - FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images [7.2993352400518035]
NVIDIA A100 GPU上の128*128*128の3Dボリューム画像に対して,SAM推論を8ミリ秒に高速化するFastSAM3Dを提案する。
FastSAM3Dは2D SAMと8.75倍の527.38倍で、同じボリュームの3D SAMは性能が著しく低下しない。
論文 参考訳(メタデータ) (2024-03-14T19:29:44Z) - Amodal 3D Reconstruction for Robotic Manipulation via Stability and
Connectivity [3.359622001455893]
学習に基づく3Dオブジェクト再構成により、3Dオブジェクトモデルの単一または少数ショット推定が可能となる。
既存の3D再構成技術は、通常、シャムファー距離またはボクセルIOUによって測定される視覚的再構成忠実度を最適化する。
本稿では,オブジェクト形状よりも先に安定性を導入するアモーダル3D再構成システムARMと,接続前の接続,マルチチャネル入力表現を提案する。
論文 参考訳(メタデータ) (2020-09-28T08:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。