論文の概要: SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters
- arxiv url: http://arxiv.org/abs/2412.00174v1
- Date: Fri, 29 Nov 2024 18:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:17.635958
- Title: SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters
- Title(参考訳): SOLAMI:3次元自律的キャラクタによる没入的インタラクションのためのソーシャルビジョン・ランゲージ・アクションモデリング
- Authors: Jianping Jiang, Weiye Xiao, Zhengyu Lin, Huaizhong Zhang, Tianxiang Ren, Yang Gao, Zhiqian Lin, Zhongang Cai, Lei Yang, Ziwei Liu,
- Abstract要約: SOLAMIは,3次元自律型キャラクタとの没入型インタラクションのための,初のエンドツーエンドのソーシャルビジョン・ランゲージ・アクション(VLA)モデリングフレームワークである。
本稿では,ユーザのマルチモーダル入力をベースとしたマルチモーダル応答(音声と動き)を生成するソーシャルVLAフレームワークを提案する。
既存の動作データセットのみを用いて自動パイプラインによって生成された合成マルチモーダルなソーシャルインタラクションデータセットであるSynMSIを提案する。
- 参考スコア(独自算出の注目度): 38.90959051732146
- License:
- Abstract: Human beings are social animals. How to equip 3D autonomous characters with similar social intelligence that can perceive, understand and interact with humans remains an open yet foundamental problem. In this paper, we introduce SOLAMI, the first end-to-end Social vision-Language-Action (VLA) Modeling framework for Immersive interaction with 3D autonomous characters. Specifically, SOLAMI builds 3D autonomous characters from three aspects: (1) Social VLA Architecture: We propose a unified social VLA framework to generate multimodal response (speech and motion) based on the user's multimodal input to drive the character for social interaction. (2) Interactive Multimodal Data: We present SynMSI, a synthetic multimodal social interaction dataset generated by an automatic pipeline using only existing motion datasets to address the issue of data scarcity. (3) Immersive VR Interface: We develop a VR interface that enables users to immersively interact with these characters driven by various architectures. Extensive quantitative experiments and user studies demonstrate that our framework leads to more precise and natural character responses (in both speech and motion) that align with user expectations with lower latency.
- Abstract(参考訳): 人間は社会的な動物です。
人間が認識し、理解し、対話できる、同様のソーシャルインテリジェンスを持つ3Dの自律的キャラクターを、どう組み合わせるかは、未解決の未解決の問題のままだ。
本稿では,SOLAMIについて紹介する。SOLAMIは3次元自律型キャラクタとの没入型インタラクションのための,最初のエンドツーエンドのソーシャルビジョン・ランゲージ・アクション(VLA)モデリングフレームワークである。
具体的には,(1)ソーシャルVLAアーキテクチャ:ユーザのマルチモーダル入力に基づいてマルチモーダル応答(音声と動き)を生成するソーシャルVLAフレームワークを提案する。
2)対話型マルチモーダルデータ:SynMSIは,データ不足の問題に対処するために,既存の動作データセットのみを用いて自動パイプラインによって生成された合成マルチモーダルソーシャルインタラクションデータセットである。
(3) Immersive VR Interface: ユーザが様々なアーキテクチャで駆動されるキャラクターと没入的に対話できるVRインターフェースを開発する。
大規模な定量的実験とユーザスタディにより、我々のフレームワークはより正確で自然な文字応答(音声とモーションの両方)をもたらし、より低レイテンシでユーザの期待に合致することを示した。
関連論文リスト
- Social Conjuring: Multi-User Runtime Collaboration with AI in Building Virtual 3D Worlds [3.5152339192019113]
Social Conjurerは、AIによる動的3Dシーンの共同作成のためのフレームワークである。
本稿では,AIモデルを3次元コンテンツ生成に組み込んだヒューマン中心インタフェースの設計における意味について述べる。
論文 参考訳(メタデータ) (2024-09-30T23:02:51Z) - Towards Embedding Dynamic Personas in Interactive Robots: Masquerading Animated Social Kinematics (MASK) [10.351714893090964]
本稿では,キャラクターライクなペルソナを用いたユーザエンゲージメントを高める革新的な対話型ロボットシステムの設計と開発について述べる。
ペルソナ駆動のダイアログエージェントの基礎の上に構築されたこの研究は、エージェントを物理的な領域に拡張し、ロボットを使ってより魅了的で対話的な体験を提供する。
論文 参考訳(メタデータ) (2024-03-15T06:22:32Z) - Digital Life Project: Autonomous 3D Characters with Social Intelligence [86.2845109451914]
Digital Life Projectは、言語をユニバーサルメディアとして活用し、自律的な3Dキャラクタを構築するためのフレームワークである。
私たちのフレームワークは、SocioMindとMoMat-MoGenの2つの主要コンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-07T18:58:59Z) - GenZI: Zero-Shot 3D Human-Scene Interaction Generation [39.9039943099911]
我々は3次元人間とシーンの相互作用を生成するための最初のゼロショットアプローチであるGenZIを提案する。
GenZIの鍵となるのは、大きな視覚言語モデル(VLM)による相互作用先行の蒸留です。
既存の学習ベースのアプローチとは対照的に、GenZIはキャプチャされた3Dインタラクションデータに対する従来のニーズを回避している。
論文 参考訳(メタデータ) (2023-11-29T15:40:11Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - Triangular Character Animation Sampling with Motion, Emotion, and
Relation [78.80083186208712]
本稿では,キャラクターの身体の動き,表情,社会的関係を関連づけることで,アニメーションのサンプリングと合成を行う新しい枠組みを提案する。
本手法は,3次元キャラクタアニメーションの自動生成,非プレーヤキャラクタ(NPC)間のインタラクションの合成,バーチャルリアリティ(VR)におけるマシン感情インテリジェンスの向上を支援するアニメーターを提供する。
論文 参考訳(メタデータ) (2022-03-09T18:19:03Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。