Fugu-MT 論文翻訳(概要): SARAH: Spatially Aware Real-time Agentic Humans

論文の概要: SARAH: Spatially Aware Real-time Agentic Humans

arxiv url: http://arxiv.org/abs/2602.18432v1
Date: Fri, 20 Feb 2026 18:59:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.42217
Title: SARAH: Spatially Aware Real-time Agentic Humans
Title（参考訳）: SARAH: リアルタイムエージェント人間を空間的に認識する
Authors: Evonne Ng, Siwei Zhang, Zhang Chen, Michael Zollhoefer, Alexander Richard,
Abstract要約: ストリーミングVRヘッドセット上に展開可能な空間認識型対話動作のための,初のリアルタイム完全因果的手法を提案する。ユーザの位置とダイアディックな音声を考慮に入れたアプローチでは,エージェントの向きをユーザに応じて調整しながら,ジェスチャーを音声と整列させる全体動作を生成する。実写VRシステムに対する我々のアプローチを検証し,空間認識型対話エージェントをリアルタイム展開に適用する。
参考スコア（独自算出の注目度）: 58.32612596034656
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As embodied agents become central to VR, telepresence, and digital human applications, their motion must go beyond speech-aligned gestures: agents should turn toward users, respond to their movement, and maintain natural gaze. Current methods lack this spatial awareness. We close this gap with the first real-time, fully causal method for spatially-aware conversational motion, deployable on a streaming VR headset. Given a user's position and dyadic audio, our approach produces full-body motion that aligns gestures with speech while orienting the agent according to the user. Our architecture combines a causal transformer-based VAE with interleaved latent tokens for streaming inference and a flow matching model conditioned on user trajectory and audio. To support varying gaze preferences, we introduce a gaze scoring mechanism with classifier-free guidance to decouple learning from control: the model captures natural spatial alignment from data, while users can adjust eye contact intensity at inference time. On the Embody 3D dataset, our method achieves state-of-the-art motion quality at over 300 FPS -- 3x faster than non-causal baselines -- while capturing the subtle spatial dynamics of natural conversation. We validate our approach on a live VR system, bringing spatially-aware conversational agents to real-time deployment. Please see https://evonneng.github.io/sarah/ for details.
Abstract（参考訳）: 具体化されたエージェントがVR、テレプレゼンス、デジタル人間のアプリケーションの中心になるにつれ、彼らの動きは、言葉にそぐわないジェスチャーでなければならない:エージェントはユーザーに向かって向きを変え、彼らの動きに反応し、自然な視線を維持する。現在の手法はこの空間的認識を欠いている。われわれはこのギャップを、空間的に認識された会話の動きをストリーミングVRヘッドセットにデプロイするための、最初のリアルタイムで完全な因果的手法で埋める。ユーザの位置とダイアディックな音声を考慮に入れたアプローチでは,エージェントの向きをユーザに応じて調整しながら,ジェスチャーを音声と整列させる全体動作を生成する。我々のアーキテクチャは、因果トランスフォーマーに基づくVAEと、ストリーミング推論のためのインターリーブ付き潜在トークンと、ユーザ軌道とオーディオに条件付きフローマッチングモデルを組み合わせる。様々な視線嗜好をサポートするために,学習を制御から切り離すための分類器なし指導を用いた視線採点機構を導入し,そのモデルがデータから自然空間アライメントをキャプチャし,ユーザは推論時にアイコンタクト強度を調整できる。 Embody 3Dデータセットでは、自然な会話の微妙な空間的ダイナミクスを捉えながら、300 FPS(非因果ベースラインの3倍高速)以上の最先端の動作品質を達成する。実写VRシステムに対する我々のアプローチを検証し,空間認識型対話エージェントをリアルタイム展開に適用する。詳細はhttps://evonneng.github.io/sarah/を参照してください。

関連論文リスト

MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。 MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文参考訳（メタデータ） (2026-03-03T18:59:51Z)
Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文参考訳（メタデータ） (2025-10-01T17:57:05Z)
MOSPA: Human Motion Generation Driven by Spatial Audio [83.31594478750682]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。本研究では,身体運動と空間音声の関係を忠実に把握する,MOSPAと呼ばれるスパティアルオーディオによって駆動される人間の運動生成のためのフレームワークを開発する。本手法は,本課題における最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-16T06:33:11Z)
ARIG: Autoregressive Interactive Head Generation for Real-time Conversations [15.886402427095515]
対面コミュニケーションは、共通の人間の活動として、インタラクティブなヘッドジェネレーションの研究を動機付けている。従来のクリップワイズ生成パラダイムや明示的なリスナー/スピーカジェネレータスイッチング手法は,将来的な信号取得に限界がある。本稿では,AR(autoregressive,自己回帰的,自己回帰的,自己回帰的,自己回帰的)に基づくフレームワークARIGを提案する。
論文参考訳（メタデータ） (2025-07-01T06:38:14Z)
OT-Talk: Animating 3D Talking Head with Optimal Transportation [20.023346831300373]
OT-Talkは、音声ヘッドアニメーションの学習モデルを最適化するために最適なトランスポートを利用する最初のアプローチである。既存の学習フレームワークに基づいて,事前学習したHubertモデルを用いて音声特徴を抽出し,変換器モデルを用いて時間的シーケンスを処理する。 2つの公開オーディオ・メシュ・データセットに対する実験により,本手法が最先端技術より優れていることを示す。
論文参考訳（メタデータ） (2025-05-03T21:49:23Z)
HoloGest: Decoupled Diffusion and Motion Priors for Generating Holisticly Expressive Co-speech Gestures [8.50717565369252]
HoleGestは、高品質で表現力のある共同音声ジェスチャーの自動生成のための、新しいニューラルネットワークフレームワークである。本システムでは,音声依存度が低く,モーション依存度が高く,より安定した大域的動作と詳細な指の動きが可能である。我々のモデルは、没入感のあるユーザー体験を提供するために、真実に近い現実主義のレベルを達成する。
論文参考訳（メタデータ） (2025-03-17T14:42:31Z)
Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文参考訳（メタデータ） (2023-12-26T18:56:49Z)
Synthesizing Diverse Human Motions in 3D Indoor Scenes [16.948649870341782]
そこで本研究では,仮想人間による3次元屋内シーンの映像化手法を提案する。既存のアプローチは、キャプチャーされた人間の動きと、それらが相互作用する3Dシーンを含むトレーニングシーケンスに依存している。仮想人間が3Dシーンをナビゲートし、現実的かつ自律的にオブジェクトと対話できる強化学習ベースのアプローチを提案する。
論文参考訳（メタデータ） (2023-05-21T09:22:24Z)
Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文参考訳（メタデータ） (2020-08-11T22:28:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。