論文の概要: Maia: A Real-time Non-Verbal Chat for Human-AI Interaction
- arxiv url: http://arxiv.org/abs/2402.06385v2
- Date: Tue, 10 Dec 2024 11:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:33:54.411281
- Title: Maia: A Real-time Non-Verbal Chat for Human-AI Interaction
- Title(参考訳): Maia:人間とAIのインタラクションのためのリアルタイム非言語チャット
- Authors: Dragos Costea, Alina Marcu, Cristina Lazar, Marius Leordeanu,
- Abstract要約: 我々はテキストベースのヒューマン-AIインタラクションの代替案を提案する。
非言語的な視覚コミュニケーションを活用することで、表情、頭と体の動きを通じて、エンゲージメントを高めることを目指している。
我々のアプローチは芸術に特化せず、様々な絵画、アニメーション、アバターに適応することができる。
- 参考スコア(独自算出の注目度): 10.580858171606167
- License:
- Abstract: Modeling face-to-face communication in computer vision, which focuses on recognizing and analyzing nonverbal cues and behaviors during interactions, serves as the foundation for our proposed alternative to text-based Human-AI interaction. By leveraging nonverbal visual communication, through facial expressions, head and body movements, we aim to enhance engagement and capture the user's attention through a novel improvisational element, that goes beyond mirroring gestures. Our goal is to track and analyze facial expressions, and other nonverbal cues in real-time, and use this information to build models that can predict and understand human behavior. Operating in real-time and requiring minimal computational resources, our approach signifies a major leap forward in making AI interactions more natural and accessible. We offer three different complementary approaches, based on retrieval, statistical, and deep learning techniques. A key novelty of our work is the integration of an artistic component atop an efficient human-computer interaction system, using art as a medium to transmit emotions. Our approach is not art-specific and can be adapted to various paintings, animations, and avatars. In our experiments, we compare state-of-the-art diffusion models as mediums for emotion translation in 2D, and our 3D avatar, Maia, that we introduce in this work, with not just facial movements but also body motions for a more natural and engaging experience. We demonstrate the effectiveness of our approach in translating AI-generated emotions into human-relatable expressions, through both human and automatic evaluation procedures, highlighting its potential to significantly enhance the naturalness and engagement of Human-AI interactions across various applications.
- Abstract(参考訳): コンピュータビジョンにおける対面コミュニケーションのモデル化は、対話中の非言語的手がかりや行動の認識と分析に重点を置いており、テキストベースのヒューマン・AIインタラクションに代わる選択肢として提案されている基盤となっている。
非言語的な視覚的コミュニケーションを活用することで、表情、頭と体の動きを通じて、ユーザのエンゲージメントを高め、新しい即興的な要素によってユーザの注意を捉えることを目指している。
私たちのゴールは、表情などの非言語的手がかりをリアルタイムで追跡、分析し、この情報を使って人間の振る舞いを予測し、理解するモデルを構築することです。
リアルタイムに運用し、最小限の計算リソースを必要とする当社のアプローチは、AIインタラクションをより自然でアクセスしやすいものにする上で、大きな飛躍を示すものです。
検索,統計,深層学習技術に基づく3つの補完的アプローチを提案する。
私たちの研究の重要な特徴は、感情を伝達する媒体としてアートを用いることで、効率的な人間とコンピュータのインタラクションシステムの上に芸術的なコンポーネントを統合することである。
我々のアプローチは芸術に特化せず、様々な絵画、アニメーション、アバターに適応することができる。
実験では,最先端の拡散モデルと2次元の感情翻訳の媒体を比較し,この研究で紹介した3DアバターであるMaiaとを比較した。
我々は,AI生成した感情を人間関係表現に翻訳するアプローチの有効性を,人的・自動的な評価手順を通じて実証し,様々なアプリケーションにおける人間-AIインタラクションの自然性とエンゲージメントを著しく向上させる可能性を強調した。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - BOSS: A Benchmark for Human Belief Prediction in Object-context
Scenarios [14.23697277904244]
本稿では,人間と自律システム間の協調を促進させる手法を検討するために,心の理論(ToM)とオブジェクトコンテキスト関係(Object-Context Relations)の複合知識を利用する。
本稿では、人工知能(AI)システムによる、オブジェクトコンテキストシナリオにおける人間の信念状態の予測能力を評価するための、新しい、かつ挑戦的なマルチモーダルビデオデータセットを提案する。
論文 参考訳(メタデータ) (2022-06-21T18:29:17Z) - Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。
提案手法とCAER-Sデータセットの最先端手法を比較した。
論文 参考訳(メタデータ) (2021-11-03T15:08:55Z) - Let's be friends! A rapport-building 3D embodied conversational agent
for the Human Support Robot [0.0]
会話中の非言語行動の微妙なミラーリング(模倣または平行共感とも呼ばれる)はラプポート構築に不可欠である。
本研究の課題は,対話者の表情と頭部の動きを反映できるECAとヒューマンサービスロボットを組み合わせることで,ユーザエクスペリエンスが向上するかどうかである。
私たちの貢献は、対話者の顔を追跡し、人間の支援ロボットと統合されたリアルタイムで顔の表情や頭の動きを反映することができる表現的ECAの複雑な統合です。
論文 参考訳(メタデータ) (2021-03-08T01:02:41Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。