Fugu-MT 論文翻訳(概要): Virtual avatar generation models as world navigators

関連論文リスト

Vidar: Embodied Video Diffusion Model for Generalist Bimanual Manipulation [21.424029706788883]
アクション推論のためのビデオ拡散(Vidar)について紹介する。実世界の3つのロボットプラットフォームから、750Kのマルチビュービデオ上で、ビデオ拡散モデルを事前訓練する。ロボットプラットフォーム上での人間によるデモはわずか20分で終わるが、Vidarは目に見えないタスクや背景を、強力なセマンティックな理解で一般化する。
論文参考訳（メタデータ） (2025-07-17T08:31:55Z)
RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。 3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文参考訳（メタデータ） (2025-06-28T05:03:31Z)
SmartAvatar: Text- and Image-Guided Human Avatar Generation with VLM AI Agents [91.26239311240873]
SmartAvatarは視覚言語によるアニメーション対応の3Dアバターを生成するためのフレームワークである。重要なイノベーションは、エージェントがドラフトアバターを描画する自動検証ループである。生成されたアバターは完全にリグされ、一貫したアイデンティティと外観で操作をサポートする。
論文参考訳（メタデータ） (2025-06-05T03:49:01Z)
EVA: Expressive Virtual Avatars from Multi-view Videos [51.33851869426057]
本稿では,アクター固有の,完全に制御可能な,表現力のある人間のアバターフレームワークであるExpressive Virtual Avatars (EVA)を紹介する。 EVAは、表情、身体の動き、手の動きの独立的な制御を可能にしながら、高忠実でライフライクなレンダリングをリアルタイムで実現している。この研究は、完全に乾燥可能なデジタル人間モデルに向けた大きな進歩を示している。
論文参考訳（メタデータ） (2025-05-21T11:22:52Z)
GSAC: Leveraging Gaussian Splatting for Photorealistic Avatar Creation with Unity Integration [45.439388725485124]
フォトリアリスティックアバターは、仮想現実(VR)や拡張現実(AR)における没入型アプリケーションに不可欠であり、トレーニングシミュレーション、遠隔医療、バーチャルコラボレーションなどの分野におけるライフライクなインタラクションを可能にする。既存のアバター生成技術は、高コスト、長い作成時間、仮想アプリケーションにおける限られたユーティリティなど、重大な課題に直面している。本稿では,モノクロビデオ入力を活用して,スケーラブルで効率的な光リアルアバターを作成する,エンドツーエンドの3Dガウス3DGSアバター生成パイプラインを提案する。
論文参考訳（メタデータ） (2025-04-17T15:10:14Z)
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting [4.011241510647248]
各種信号によって駆動される高忠実で軽量な3DGSベースのフルボディ音声アバターであるTaoAvatarについて述べる。 TaoAvatarは、Apple Vision Proのような高精細ステレオデバイス上で90FPSを維持しながら、様々なデバイスでリアルタイムに実行しながら、最先端のレンダリング品質を実現していることを示す。
論文参考訳（メタデータ） (2025-03-21T10:40:37Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。 EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文参考訳（メタデータ） (2025-01-03T17:00:33Z)
Bundle Adjusted Gaussian Avatars Deblurring [31.718130377229482]
本研究では,人間の運動に起因するぼかし形成の3次元的物理指向モデルと,運動誘発ぼかし画像に見られる曖昧さを明らかにするための3次元人体運動モデルを提案する。我々は,360度同期ハイブリッド露光カメラシステムによって取得された実撮データセットとともに,既存のマルチビューキャプチャから合成されたデータセットを用いて,このタスクのベンチマークを確立した。
論文参考訳（メタデータ） (2024-11-24T10:03:24Z)
OmniRe: Omni Urban Scene Reconstruction [78.99262488964423]
OmniReはデバイス上でのログから動的現実シーンの高忠実なデジタルツインを作成するための総合システムである。提案手法は3DGS上にシーングラフを構築し,様々な動的アクターをモデル化する標準空間内に複数のガウス表現を構築する。
論文参考訳（メタデータ） (2024-08-29T17:56:33Z)
RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots [25.650235551519952]
本稿では,汎用ロボットを日常的に訓練するための大規模シミュレーションフレームワークであるRoboCasaを紹介する。私たちは、150以上のオブジェクトカテゴリと数十の対話可能な家具とアプライアンスに対して、何千もの3Dアセットを提供しています。本実験は, 大規模模倣学習のための合成ロボットデータを用いて, スケーリングの傾向を明らかにするものである。
論文参考訳（メタデータ） (2024-06-04T17:41:31Z)
NPGA: Neural Parametric Gaussian Avatars [46.52887358194364]
マルチビュー映像記録から高忠実度制御可能なアバターを作成するためのデータ駆動方式を提案する。我々は,高効率なレンダリングのための3次元ガウススプラッティングの手法を構築し,点雲のトポロジカルな柔軟性を継承する。提案手法をNeRSembleデータセット上で評価し,NPGAが従来の自己再現タスクの2.6PSNRよりも有意に優れていたことを示す。
論文参考訳（メタデータ） (2024-05-29T17:58:09Z)
Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。 ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文参考訳（メタデータ） (2023-12-22T20:56:46Z)
Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。 VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文参考訳（メタデータ） (2023-05-28T17:53:09Z)
CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。 9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文参考訳（メタデータ） (2023-03-31T09:18:12Z)
Human Performance Modeling and Rendering via Neural Animated Mesh [40.25449482006199]
従来のメッシュをニューラルレンダリングの新たなクラスでブリッジします。本稿では,映像から人間の視点をレンダリングする新しい手法を提案する。我々は、ARヘッドセットにバーチャルヒューマンパフォーマンスを挿入して、さまざまなプラットフォーム上でのアプローチを実証する。
論文参考訳（メタデータ） (2022-09-18T03:58:00Z)
Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-20T09:28:16Z)
iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。 iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文参考訳（メタデータ） (2020-12-05T02:14:17Z)
Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文参考訳（メタデータ） (2020-03-20T16:13:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Virtual avatar generation models as world navigators

関連論文リスト