論文の概要: Visually-grounded Humanoid Agents
- arxiv url: http://arxiv.org/abs/2604.08509v1
- Date: Thu, 09 Apr 2026 17:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.057687
- Title: Visually-grounded Humanoid Agents
- Title(参考訳): 視覚的接地型ヒューマノイド剤
- Authors: Hang Ye, Xiaoxuan Ma, Fan Lu, Wayne Wu, Kwan-Yee Lin, Yizhou Wang,
- Abstract要約: 複数のレベルで人間を再現する2層(世界エージェント)のパラダイムを結合したビジュアルグラウンドのヒューマノイドエージェントを紹介した。
エージェント層はこれらのアバターを自律的なヒューマノイドエージェントに変換し、第一人物のRGB-D知覚を装備する。
実験では、エージェントが堅牢な自律行動を達成することを示し、より高いタスクの成功率と衝突の少ない結果となった。
- 参考スコア(独自算出の注目度): 37.993282941475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital human generation has been studied for decades and supports a wide range of real-world applications. However, most existing systems are passively animated, relying on privileged state or scripted control, which limits scalability to novel environments. We instead ask: how can digital humans actively behave using only visual observations and specified goals in novel scenes? Achieving this would enable populating any 3D environments with digital humans at scale that exhibit spontaneous, natural, goal-directed behaviors. To this end, we introduce Visually-grounded Humanoid Agents, a coupled two-layer (world-agent) paradigm that replicates humans at multiple levels: they look, perceive, reason, and behave like real people in real-world 3D scenes. The World Layer reconstructs semantically rich 3D Gaussian scenes from real-world videos via an occlusion-aware pipeline and accommodates animatable Gaussian-based human avatars. The Agent Layer transforms these avatars into autonomous humanoid agents, equipping them with first-person RGB-D perception and enabling them to perform accurate, embodied planning with spatial awareness and iterative reasoning, which is then executed at the low level as full-body actions to drive their behaviors in the scene. We further introduce a benchmark to evaluate humanoid-scene interaction in diverse reconstructed environments. Experiments show our agents achieve robust autonomous behavior, yielding higher task success rates and fewer collisions than ablations and state-of-the-art planning methods. This work enables active digital human population and advances human-centric embodied AI. Data, code, and models will be open-sourced.
- Abstract(参考訳): デジタル・ヒューマン・ジェネレーションは数十年にわたって研究され、様々な現実世界の応用をサポートしている。
しかし、既存のシステムのほとんどはパッシブにアニメーション化されており、特権状態やスクリプト制御に依存しており、新しい環境にスケーラビリティを制限している。
デジタル人間は、新しいシーンで視覚的な観察と特定の目標だけを使用して、どのように振る舞うことができるのか?
これを実現することで、デジタル人間によって、自然に、自然に、ゴール指向の行動を示す、あらゆる3D環境を大規模に収集することができる。
この目的のために、我々はビジュアル・グラウンドド・ヒューマノイド・エージェント(Visually-grounded Humanoid Agents)を紹介します。
World Layerは、Occlusion-awareパイプラインを通じて現実世界のビデオから意味的に豊かな3Dガウスのシーンを再構築し、アニマブルなガウスの人間アバターを収容する。
エージェントレイヤーはこれらのアバターを自律的なヒューマノイドエージェントに変換し、第一人物のRGB-D知覚を装備し、空間的認識と反復的推論で正確で具体化された計画を実行可能にする。
さらに, 多様な再構成環境におけるヒューマノイドとシーンの相互作用を評価するためのベンチマークを導入する。
実験により、我々のエージェントは堅牢な自律行動を実現し、より高いタスク成功率と衝突率を、アブレーションや最先端の計画手法よりも少なくすることが示された。
この作業は、アクティブなデジタル人間人口を可能にし、人間中心型AIを進化させる。
データ、コード、モデルはオープンソース化される。
関連論文リスト
- EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - AHA! Animating Human Avatars in Diverse Scenes with Gaussian Splatting [26.560838721184435]
3次元ガウススプラッティング(3DGS)を用いた3次元シーンにおける人間アニメーションのための新しい枠組みを提案する。
ヒトとシーンをガウスとして表現することで、我々のアプローチは3Dシーンと相互作用する人間の幾何学的に一貫性のある自由視点レンダリングを可能にする。
我々は,Scannet++とSuperSplatライブラリのシーンに対するアプローチと,疎密で高密度なマルチビュー・ヒューマンキャプチャから再構成したアバターに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-11-13T00:19:18Z) - Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models [16.259040755335885]
従来の自己回帰に基づく3Dシーン生成手法は、複数の物体と入力人間の関節分布を正確に捉えるのに苦労してきた。
本研究では,人間-物体衝突回避機構とオブジェクト-部屋境界制約という2つの空間衝突誘導機構を導入する。
我々のフレームワークは、人間とシーンのインタラクションを正確に行うことで、より自然でわかりやすい3Dシーンを生成することができる。
論文 参考訳(メタデータ) (2024-06-26T08:18:39Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - Multimodal Sense-Informed Prediction of 3D Human Motions [16.71099574742631]
本研究は,2つのモーダル情報に対して高忠実度を生成するマルチモーダル・インフォームド・モーション・予測手法を提案する。
視線情報は人間の意図と見なされ、動きとシーンの特徴が組み合わさって、世代を監督するために第3の意図に注意を向ける。
実世界の2つのベンチマークにおいて,提案手法は3次元人間のポーズと軌道予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-05-05T12:38:10Z) - Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。
既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。
仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T09:22:24Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。