論文の概要: Maia: A Real-time Non-Verbal Chat for Human-AI Interaction
- arxiv url: http://arxiv.org/abs/2402.06385v1
- Date: Fri, 9 Feb 2024 13:07:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:51:56.545300
- Title: Maia: A Real-time Non-Verbal Chat for Human-AI Interaction
- Title(参考訳): Maia:人間-AIインタラクションのためのリアルタイム非言語チャット
- Authors: Dragos Costea, Alina Marcu, Cristina Lazar, Marius Leordeanu
- Abstract要約: 本稿では,顔の表情と頭部の動きを反映したテキストチャットの代替案を提案する。
私たちのゴールは、表情やその他の非言語的手がかりをリアルタイムで追跡し分析し、この情報を使って人間の振る舞いを予測し理解するモデルを構築することです。
- 参考スコア(独自算出の注目度): 11.558827428811385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face-to-face communication modeling in computer vision is an area of research
focusing on developing algorithms that can recognize and analyze non-verbal
cues and behaviors during face-to-face interactions. We propose an alternative
to text chats for Human-AI interaction, based on non-verbal visual
communication only, using facial expressions and head movements that mirror,
but also improvise over the human user, to efficiently engage with the users,
and capture their attention in a low-cost and real-time fashion. Our goal is to
track and analyze facial expressions, and other non-verbal cues in real-time,
and use this information to build models that can predict and understand human
behavior. We offer three different complementary approaches, based on
retrieval, statistical, and deep learning techniques. We provide human as well
as automatic evaluations and discuss the advantages and disadvantages of each
direction.
- Abstract(参考訳): コンピュータビジョンにおける対面コミュニケーションモデリングは、対面インタラクション中の非言語的手がかりや行動を認識し解析するアルゴリズムの開発に焦点を当てた研究分野である。
本稿では,非言語的な視覚コミュニケーションのみに基づいて,表情や頭部の動きを鏡に映し出すだけでなく,ユーザを即興的に操作することで,ユーザと効率的に対話し,安価かつリアルタイムな方法で注目を集める,人間とaiの対話のためのテキストチャットの代替案を提案する。
私たちの目標は、表情などの非言語的手がかりをリアルタイムで追跡、分析し、この情報を使って人間の行動を予測するモデルを構築することです。
検索,統計,深層学習技術に基づく3つの補完的アプローチを提案する。
我々は、人間と自動評価を提供し、それぞれの方向の利点とデメリットについて議論する。
関連論文リスト
- EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。
本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文 参考訳(メタデータ) (2024-10-30T17:22:45Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Facial Expression Recognition using Squeeze and Excitation-powered Swin
Transformers [0.0]
本研究では,Swin Vision Transformers (SwinT) とSwin Vision Transformers (SE) を用いて,視覚タスクに対処するフレームワークを提案する。
我々の焦点は、最小限のデータを使って顔の感情を認識できるSwinTアーキテクチャに基づく効率的なFERモデルを作ることであった。
我々は、ハイブリッドデータセットでモデルをトレーニングし、そのパフォーマンスをAffectNetデータセットで評価し、F1スコア0.5420を達成しました。
論文 参考訳(メタデータ) (2023-01-26T02:29:17Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z) - Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。
提案手法とCAER-Sデータセットの最先端手法を比較した。
論文 参考訳(メタデータ) (2021-11-03T15:08:55Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。