論文の概要: Towards Interactive Intelligence for Digital Humans
- arxiv url: http://arxiv.org/abs/2512.13674v1
- Date: Mon, 15 Dec 2025 18:57:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.824907
- Title: Towards Interactive Intelligence for Digital Humans
- Title(参考訳): デジタル人間のためのインタラクティブインテリジェンスを目指して
- Authors: Yiyi Cai, Xuangeng Chu, Xiwei Gao, Sitong Gong, Yifei Huang, Caixin Kang, Kunhang Li, Haiyang Liu, Ruicong Liu, Yun Liu, Dianwen Ng, Zixiong Su, Erwin Wu, Yuhan Wu, Dingkun Yan, Tianyu Yan, Chang Zeng, Bo Zheng, You Zhou,
- Abstract要約: デジタル人間の新しいパラダイムであるインタラクティブ・インテリジェンス(Interactive Intelligence)を導入し,人格に整合した表現,適応的相互作用,自己進化を実現する。
我々は,Thinker,Talker,Face Animator,Body Animator,Rendererの5つの特殊なモジュールからなるエンドツーエンドフレームワークであるMioを紹介する。
- 参考スコア(独自算出の注目度): 31.977798807410682
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Interactive Intelligence, a novel paradigm of digital human that is capable of personality-aligned expression, adaptive interaction, and self-evolution. To realize this, we present Mio (Multimodal Interactive Omni-Avatar), an end-to-end framework composed of five specialized modules: Thinker, Talker, Face Animator, Body Animator, and Renderer. This unified architecture integrates cognitive reasoning with real-time multimodal embodiment to enable fluid, consistent interaction. Furthermore, we establish a new benchmark to rigorously evaluate the capabilities of interactive intelligence. Extensive experiments demonstrate that our framework achieves superior performance compared to state-of-the-art methods across all evaluated dimensions. Together, these contributions move digital humans beyond superficial imitation toward intelligent interaction.
- Abstract(参考訳): デジタル人間の新しいパラダイムであるインタラクティブ・インテリジェンス(Interactive Intelligence)を導入し,人格に整合した表現,適応的相互作用,自己進化を実現する。
これを実現するために,Thinker,Talker,Face Animator,Body Animator,Rendererの5つの特殊なモジュールからなるエンドツーエンドフレームワークであるMio(Multimodal Interactive Omni-Avatar)を紹介する。
この統合されたアーキテクチャは、認知的推論をリアルタイムなマルチモーダルな実施と統合し、流動的で一貫した相互作用を可能にする。
さらに、インタラクティブインテリジェンスの性能を厳格に評価するための新しいベンチマークを構築した。
大規模な実験により,本フレームワークは,すべての評価次元にわたる最先端手法と比較して優れた性能を発揮することが示された。
これらの貢献により、デジタル人間は表面的な模倣から知的相互作用へと移行する。
関連論文リスト
- FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI [24.545163508739943]
FreeAskWorldは対話型シミュレーションフレームワークで、大規模言語モデルを統合して、ハイレベルな振る舞い計画とセマンティックな基礎的なインタラクションを実現する。
我々のフレームワークはスケーラブルでリアルなヒューマンエージェントシミュレーションをサポートし、多様な実施タスクに適したモジュラーデータ生成パイプラインを含んでいる。
再構成環境,6種類のタスクタイプ,16のコアオブジェクトカテゴリ,63,429の注釈付きサンプルフレーム,17時間以上のインタラクションデータからなる大規模ベンチマークデータセットであるFreeAskWorldを公開・公開する。
論文 参考訳(メタデータ) (2025-11-17T15:58:46Z) - Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。
既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。
本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-23T12:30:19Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Maia: A Real-time Non-Verbal Chat for Human-AI Interaction [10.580858171606167]
我々はテキストベースのヒューマン-AIインタラクションの代替案を提案する。
非言語的な視覚コミュニケーションを活用することで、表情、頭と体の動きを通じて、エンゲージメントを高めることを目指している。
我々のアプローチは芸術に特化せず、様々な絵画、アニメーション、アバターに適応することができる。
論文 参考訳(メタデータ) (2024-02-09T13:07:22Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - A Probabilistic Model Of Interaction Dynamics for Dyadic Face-to-Face
Settings [1.9544213396776275]
我々は,対面設定における対の参加者間の相互作用のダイナミクスを捉える確率論的モデルを開発した。
この相互作用エンコーディングは、あるエージェントの将来のダイナミクスを予測する際に、生成に影響を与えるために使用される。
我々のモデルは, 相互作用する力学に基づいて, モード間のデライン化に成功していることを示す。
論文 参考訳(メタデータ) (2022-07-10T23:31:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。