Fugu-MT 論文翻訳(概要): CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

論文の概要: CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

arxiv url: http://arxiv.org/abs/2505.21437v1
Date: Tue, 27 May 2025 17:11:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 17:05:58.818199
Title: CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects
Title（参考訳）: CoDA:人工物体の全身操作のための共振拡散雑音最適化
Authors: Huaijin Pi, Zhi Cen, Zhiyang Dou, Taku Komura,
Abstract要約: 人工物体の全身操作は、仮想人間やロボット工学の幅広い応用において、非常に困難な作業である。本研究では,現実的な全身運動を実現するための新しい拡散雑音最適化フレームワークを提案する。提案手法は,動作品質と身体的可視性において,既存の手法よりも優れていることを示す広範な実験を行う。
参考スコア（独自算出の注目度）: 14.230098033626744
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthesizing whole-body manipulation of articulated objects, including body motion, hand motion, and object motion, is a critical yet challenging task with broad applications in virtual humans and robotics. The core challenges are twofold. First, achieving realistic whole-body motion requires tight coordination between the hands and the rest of the body, as their movements are interdependent during manipulation. Second, articulated object manipulation typically involves high degrees of freedom and demands higher precision, often requiring the fingers to be placed at specific regions to actuate movable parts. To address these challenges, we propose a novel coordinated diffusion noise optimization framework. Specifically, we perform noise-space optimization over three specialized diffusion models for the body, left hand, and right hand, each trained on its own motion dataset to improve generalization. Coordination naturally emerges through gradient flow along the human kinematic chain, allowing the global body posture to adapt in response to hand motion objectives with high fidelity. To further enhance precision in hand-object interaction, we adopt a unified representation based on basis point sets (BPS), where end-effector positions are encoded as distances to the same BPS used for object geometry. This unified representation captures fine-grained spatial relationships between the hand and articulated object parts, and the resulting trajectories serve as targets to guide the optimization of diffusion noise, producing highly accurate interaction motion. We conduct extensive experiments demonstrating that our method outperforms existing approaches in motion quality and physical plausibility, and enables various capabilities such as object pose control, simultaneous walking and manipulation, and whole-body generation from hand-only data.
Abstract（参考訳）: 体の動き、手の動き、物体の動きを含む、関節のある物体の全身操作を合成することは、仮想人間やロボット工学における幅広い応用において、非常に難しい課題である。主な課題は2つある。第一に、現実的な全身運動を達成するには、操作中に動きが相互に依存するため、手と体の他の部分との緊密な協調が必要である。第二に、関節のある物体の操作は通常、高い自由度を伴い、高い精度を要求する。これらの課題に対処するため,我々は新しい拡散雑音最適化フレームワークを提案する。具体的には、体、左手、右手の3つの特殊拡散モデルに対して雑音空間の最適化を行い、それぞれが自身の運動データセットで訓練され、一般化を改善する。コーディネーションは自然にヒトのキネマティック・チェーンに沿った勾配の流れを通して発生し、地球全体の姿勢は高い忠実度で手の動きの目的に応じて順応する。手動物体の相互作用における精度をさらに高めるために,物体形状に使用するBPSとの距離としてエンドエフェクタ位置を符号化する基底点集合(BPS)に基づく統一表現を採用する。この統一された表現は、手と明瞭な対象部分の間のきめ細かい空間的関係を捉え、その結果の軌道は拡散雑音の最適化を導くターゲットとして機能し、高精度な相互作用運動を生み出す。提案手法は動作品質や身体的可視性において既存の手法よりも優れており,物体のポーズ制御,同時歩行操作,手動のみのデータからの全身生成など,様々な機能を実現している。

関連論文リスト

HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文参考訳（メタデータ） (2025-06-02T12:08:08Z)
Diffgrasp: Whole-Body Grasping Synthesis Guided by Object Motion Using a Diffusion Model [25.00532805042292]
本稿では,身体,手,与えられた物体の動き列の関係をモデル化する,シンプルで効果的な枠組みを提案する。我々は,新たな接触認識損失を導入し,データ駆動型,慎重に設計されたガイダンスを取り入れた。実験の結果,本手法は最先端の手法より優れ,至適な全身運動系列を生成することがわかった。
論文参考訳（メタデータ） (2024-12-30T02:21:43Z)
ManiDext: Hand-Object Manipulation Synthesis via Continuous Correspondence Embeddings and Residual-Guided Diffusion [36.9457697304841]
ManiDextは、手操作やポーズを把握するための階層的な拡散ベースの統合フレームワークである。私たちの重要な洞察は、相互作用中の物体と手との接触関係を正確にモデル化することが重要であるということです。本フレームワークは,まず,物体表面への接触マップと対応埋め込みを生成する。これらの微粒な対応に基づき,拡散過程に反復的精錬プロセスを統合する新しいアプローチを導入する。
論文参考訳（メタデータ） (2024-09-14T04:28:44Z)
Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation [27.206656215734295]
本稿では,DVQ-VAE(Decomposed Vector-Quantized Variational Autoencoder)を提案する。部分認識の分解アーキテクチャは、手とオブジェクトの各コンポーネント間のインタラクションをより正確に管理するのに役立つ。提案モデルでは,4つのベンチマークにおいて,最先端の手法と比較して,品質指標の14.1%の相対的な改善を実現した。
論文参考訳（メタデータ） (2024-07-19T06:41:16Z)
Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文参考訳（メタデータ） (2024-03-24T14:24:13Z)
InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文参考訳（メタデータ） (2023-11-27T14:32:33Z)
Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文参考訳（メタデータ） (2023-09-28T08:22:00Z)
GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。 GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文参考訳（メタデータ） (2023-08-22T17:59:51Z)
GraMMaR: Ground-aware Motion Model for 3D Human Motion Reconstruction [61.833152949826946]
本研究では,GraMMaRという3次元人体動作再構成のための新しいグラウンド・アウェア・モーション・モデルを提案する。 GraMMaRは、動きシーケンスの各時間ステップにおいて、ポーズにおける遷移の分布と、各関節面と接地面の間の相互作用を学習する。運動と地面への距離変化との整合性を明確に促進するように訓練されている。
論文参考訳（メタデータ） (2023-06-29T07:22:20Z)
Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成本手法は時間座標のみでパラメータ化される連続運動を生成する。この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文参考訳（メタデータ） (2023-03-23T09:31:56Z)
Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文参考訳（メタデータ） (2021-06-07T23:11:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。