論文の概要: StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation
- arxiv url: http://arxiv.org/abs/2603.08390v2
- Date: Tue, 10 Mar 2026 09:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.12215
- Title: StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation
- Title(参考訳): StructBiHOI:長軸2次元手-物体相互作用生成のための構造的調音モデリング
- Authors: Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang,
- Abstract要約: 長期計画不安定性, きめ細かな関節明瞭化, 複雑な手動協調により, コヒーレントな双方向生成が困難になる。
長軸2次元HOI生成のための構造化調音モデルであるStructBiHOIを提案する。
- 参考スコア(独自算出の注目度): 30.285126708457174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in 3D hand--object interaction (HOI) generation has primarily focused on single--hand grasp synthesis, while bimanual manipulation remains significantly more challenging. Long--horizon planning instability, fine--grained joint articulation, and complex cross--hand coordination make coherent bimanual generation difficult, especially under multimodal conditions. Existing approaches often struggle to simultaneously ensure temporal consistency, physical plausibility, and semantic alignment over extended sequences. We propose StructBiHOI, a Structured articulation modeling framework for long-horizon Bimanual HOI generation. Our key insight is to structurally disentangle temporal joint planning from frame--level manipulation refinement. Specifically, a jointVAE models long-term joint evolution conditioned on object geometry and task semantics, while a maniVAE refines fine-grained hand poses at the single--frame level. To enable stable and efficient long--sequence generation, we incorporate a state--space--inspired diffusion denoiser based on Mamba, which models long--range dependencies with linear complexity. This hierarchical design facilitates coherent dual-hand coordination and articulated object interaction. Extensive experiments on bimanual manipulation and single-hand grasping benchmarks demonstrate that our method achieves superior long--horizon stability, motion realism, and computational efficiency compared to strong baselines.
- Abstract(参考訳): 近年の3次元手-物間相互作用(HOI)生成の進歩は主に片手握り合成に焦点が当てられているが、両手操作は依然として著しく困難である。
長期計画不安定性, きめ細かい関節明瞭性, 複雑な手作業の協調は, 特にマルチモーダル条件下でのコヒーレントな双方向生成を困難にしている。
既存のアプローチはしばしば、時間的一貫性、物理的妥当性、および拡張シーケンス上の意味的アライメントを同時に確保するのに苦労する。
長軸2次元HOI生成のための構造化調音モデルであるStructBiHOIを提案する。
我々の重要な洞察は、フレームレベルの操作改善から時間的関節計画を構造的に切り離すことである。
具体的には,maniVAEはオブジェクトの形状やタスクのセマンティクスを前提とした長期共同進化をモデル化し,maniVAEは単一フレームレベルで細粒度の手のポーズを洗練する。安定かつ効率的なロングシーケンス生成を実現するため,Mambaをベースとした状態空間型拡散デノイザを組み込む。
この階層的設計は、コヒーレントなデュアルハンドコーディネートとオーケストレートなオブジェクトインタラクションを促進する。
両手操作および単手握りベンチマークの広範囲な実験により,本手法は強いベースラインに比べて長軸安定性,運動リアリズム,計算効率に優れることを示した。
関連論文リスト
- Structural Action Transformer for 3D Dexterous Manipulation [80.07649565189035]
クロス・エボディメント・スキル・トランスファーは、ハイDoFロボットハンドの課題である。
既存の手法は、しばしば2次元の観測と時間中心の行動表現に依存し、3次元の空間的関係を捉えるのに苦労する。
本稿では、構造中心の視点を導入することで、このパラダイムに挑戦する新しい3Dデクスタラスな操作ポリシーを提案する。
論文 参考訳(メタデータ) (2026-03-04T11:38:12Z) - HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation [55.73037290387896]
HINTは,階層的インタラクティクスモデリングを応用した多関節モーション生成のための最初の自動回帰フレームワークである。
第一に、HINTは正準化潜在空間内でのゆがみのある動きの表現を活用し、局所的な動きのセマンティクスを対人インタラクションから切り離す。
第二に、HINTは効率的なオンライン生成のためのスライドウインドウ戦略を採用し、局所的なウィンドウ内およびグローバルなクロスウインドウ条件を集約し、過去の人類の歴史、個人間の依存関係を捉え、テキストガイダンスと整合する。
論文 参考訳(メタデータ) (2026-01-28T08:47:23Z) - SasMamba: A Lightweight Structure-Aware Stride State Space Model for 3D Human Pose Estimation [0.8427427828815586]
関節間の局所的相互作用を動的に捉えるための構造認識型時間的畳み込みを提案する。
そこで我々は,マルチスケールなグローバルな構造表現を構築するために,ストライドに基づくスキャン戦略を適用した。
我々のモデルであるSasMambaは、既存のハイブリッドモデルと比較して、パラメータが大幅に少ない競争力のある3Dポーズ推定性能を実現する。
論文 参考訳(メタデータ) (2025-11-12T01:25:20Z) - Dynamic Adaptive Shared Experts with Grouped Multi-Head Attention Mixture of Experts [10.204413386807564]
本稿では,DASG-MoE(Dynamic Adaptive Shared Expert and Grouped Multi-Head Attention Hybrid Model)を提案する。
まず,グループ型マルチヘッドアテンション(GMHA)機構を用いて,長い列の計算複雑性を効果的に低減する。
第2に、浅瀬の専門家が軽量な計算を用いて低次元の特徴に迅速に対応できるDual-Scale Shared Expert Structure (DSSE)を設計する。
第3に,機能複雑性とタスク要求に基づいて,専門家レベルを動的に選択する階層型適応動的ルーティング(ADR)機構を提案する。
論文 参考訳(メタデータ) (2025-09-05T02:49:15Z) - Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance [61.41904916189093]
単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。
我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
論文 参考訳(メタデータ) (2025-08-25T17:11:53Z) - Towards Consistent Long-Term Pose Generation [0.0]
最小限の文脈から連続座標空間のポーズを直接生成する新しいワンステージアーキテクチャを提案する。
私たちの重要なイノベーションは、中間表現やトークンベースの生成の必要性を排除することです。
提案手法は,特に長期発生シナリオにおいて,既存の量子化法と自己回帰法を著しく上回っている。
論文 参考訳(メタデータ) (2025-07-24T12:57:22Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - FastGrasp: Efficient Grasp Synthesis with Diffusion [25.91329341243337]
本稿では,一段階的に把握ポーズを生成する拡散モデルに基づく新しいアプローチを提案する。
これにより、生成速度と生成した手ポーズの多様性を大幅に改善できる。
提案手法は,最先端手法よりも高速な推論,多様性の向上,ポーズの質の向上を実現している。
論文 参考訳(メタデータ) (2024-11-22T08:06:32Z) - Orchid: Flexible and Data-Dependent Convolution for Sequence Modeling [4.190836962132713]
本稿では,従来の注意機構の2次複雑さに対処する新しいアーキテクチャであるOrchidを紹介する。
このアーキテクチャのコアには、新しいデータ依存のグローバル畳み込み層があり、入力シーケンスに条件付きカーネルを文脈的に適応させる。
言語モデリングや画像分類など,複数の領域にまたがるモデルの評価を行い,その性能と汎用性を強調した。
論文 参考訳(メタデータ) (2024-02-28T17:36:45Z) - Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - Disentangling and Unifying Graph Convolutions for Skeleton-Based Action
Recognition [79.33539539956186]
本稿では,マルチスケールグラフ畳み込みと,G3Dという空間時間グラフ畳み込み演算子を結合する簡単な方法を提案する。
これらの提案を結合することにより,MS-G3Dという強力な特徴抽出器を開発し,そのモデルが3つの大規模データセット上で従来の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-31T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。