論文の概要: Non-verbal Real-time Human-AI Interaction in Constrained Robotic Environments
- arxiv url: http://arxiv.org/abs/2603.01804v1
- Date: Mon, 02 Mar 2026 12:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.870987
- Title: Non-verbal Real-time Human-AI Interaction in Constrained Robotic Environments
- Title(参考訳): 制約されたロボット環境における非言語リアルタイム人間-AIインタラクション
- Authors: Dragos Costea, Alina Marcu, Cristina Lazar, Marius Leordeanu,
- Abstract要約: 本研究では, 人為的データに対するAI生成データの統計的忠実度に関する議論を, 全身運動を用いた非言語コミュニケーションの文脈で検討した。
2Dボディキーポイントから人間とAIの自然な非言語的相互作用をリアルタイムで生成する最初のフレームワークを紹介する。
以上の結果から,人間とAIの動作における統計的に区別可能な相違が持続していることが示唆された。
- 参考スコア(独自算出の注目度): 6.623088068354071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the ongoing debate regarding the statistical fidelity of AI-generated data compared to human-generated data in the context of non-verbal communication using full body motion. Concretely, we ask if contemporary generative models move beyond surface mimicry to participate in the silent, but expressive dialogue of body language. We tackle this question by introducing the first framework that generates a natural non-verbal interaction between Human and AI in real-time from 2D body keypoints. Our experiments utilize four lightweight architectures which run at up to 100 FPS on an NVIDIA Orin Nano, effectively closing the perception-action loop needed for natural Human-AI interaction. We trained on 437 human video clips and demonstrated that pretraining on synthetically-generated sequences reduces motion errors significantly, without sacrificing speed. Yet, a measurable reality gap persists. When the best model is evaluated on keypoints extracted from cutting-edge text-to-video systems, such as SORA and VEO, we observe that performance drops on SORA-generated clips. However, it degrades far less on VEO, suggesting that temporal coherence, not image fidelity, drives real-world performance. Our results demonstrate that statistically distinguishable differences persist between Human and AI motion.
- Abstract(参考訳): 全身運動を用いた非言語コミュニケーションにおける人間生成データと比較して,AI生成データの統計的忠実度に関する議論が続いている。
具体的には、現代生成モデルが表面の模倣を超えて、サイレントだが表現力のあるボディランゲージの対話に参加するかどうかを問う。
2Dボディキーポイントから人間とAIの自然な非言語的相互作用をリアルタイムで生成する最初のフレームワークを導入することで、この問題に対処する。
実験では,NVIDIA Orin Nano上で最大100FPSで動作する4つの軽量アーキテクチャを用いて,自然とAIの相互作用に必要な知覚・行動ループを効果的に閉鎖する。
437本のビデオクリップをトレーニングし, 合成されたシーケンスの事前学習により, 速度を犠牲にすることなく, 動作誤差を大幅に低減できることを実証した。
しかし、測定可能な現実のギャップは持続する。
SORAやVEOのような最先端のテキスト・ビデオ・システムから抽出したキーポイントから最良のモデルを評価すると、SORA生成したクリップの性能低下が観測される。
しかし、VEOでは劣化がはるかに少なく、画像の忠実さではなく時間的コヒーレンスが現実世界のパフォーマンスを駆動していることを示唆している。
以上の結果から,人間とAIの動作における統計的に区別可能な相違が持続していることが示唆された。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。
本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。
我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文 参考訳(メタデータ) (2025-08-04T06:35:48Z) - ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation [17.438484695828276]
我々は,ゼロショット4次元人間とシーンの相互作用合成を可能にする新しいアプローチであるZeroHSIを提案する。
私たちの重要な洞察は、最先端のビデオ生成モデルから人間とシーンのインタラクションを抽出することです。
ZeroHSIは静的シーンと環境の両方でリアルな人間の動きを動的オブジェクトで合成することができる。
論文 参考訳(メタデータ) (2024-12-24T18:55:38Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Where is my hand? Deep hand segmentation for visual self-recognition in
humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。
ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文 参考訳(メタデータ) (2021-02-09T10:34:32Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Learning Whole-Body Human-Robot Haptic Interaction in Social Contexts [11.879852629248981]
本稿では,全ロボット体上での全身触覚接触を含む人間とロボットの社会的相互作用を教えるためのLfD(Learning-from-demonstration)フレームワークを提案する。
既存のLfDフレームワークの性能は、高次元データ空間性のためにこのような相互作用に苦しむ。
この疎度を活用することで,有意な精度のペナルティを伴わずにデータ次元を削減できることを示し,それを実現するための3つの戦略を紹介した。
論文 参考訳(メタデータ) (2020-05-26T03:44:09Z) - Hyperparameters optimization for Deep Learning based emotion prediction
for Human Robot Interaction [0.2549905572365809]
インセプションモジュールをベースとした畳み込みニューラルネットワークアーキテクチャを提案する。
モデルは人型ロボットNAOにリアルタイムに実装され、モデルの堅牢性を評価する。
論文 参考訳(メタデータ) (2020-01-12T05:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。