Fugu-MT 論文翻訳(概要): Maia: A Real-time Non-Verbal Chat for Human-AI Interaction

論文の概要: Maia: A Real-time Non-Verbal Chat for Human-AI Interaction

arxiv url: http://arxiv.org/abs/2402.06385v1
Date: Fri, 9 Feb 2024 13:07:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 16:51:56.545300
Title: Maia: A Real-time Non-Verbal Chat for Human-AI Interaction
Title（参考訳）: Maia:人間-AIインタラクションのためのリアルタイム非言語チャット
Authors: Dragos Costea, Alina Marcu, Cristina Lazar, Marius Leordeanu
Abstract要約: 本稿では,顔の表情と頭部の動きを反映したテキストチャットの代替案を提案する。私たちのゴールは、表情やその他の非言語的手がかりをリアルタイムで追跡し分析し、この情報を使って人間の振る舞いを予測し理解するモデルを構築することです。
参考スコア（独自算出の注目度）: 11.558827428811385
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Face-to-face communication modeling in computer vision is an area of research focusing on developing algorithms that can recognize and analyze non-verbal cues and behaviors during face-to-face interactions. We propose an alternative to text chats for Human-AI interaction, based on non-verbal visual communication only, using facial expressions and head movements that mirror, but also improvise over the human user, to efficiently engage with the users, and capture their attention in a low-cost and real-time fashion. Our goal is to track and analyze facial expressions, and other non-verbal cues in real-time, and use this information to build models that can predict and understand human behavior. We offer three different complementary approaches, based on retrieval, statistical, and deep learning techniques. We provide human as well as automatic evaluations and discuss the advantages and disadvantages of each direction.
Abstract（参考訳）: コンピュータビジョンにおける対面コミュニケーションモデリングは、対面インタラクション中の非言語的手がかりや行動を認識し解析するアルゴリズムの開発に焦点を当てた研究分野である。本稿では,非言語的な視覚コミュニケーションのみに基づいて,表情や頭部の動きを鏡に映し出すだけでなく,ユーザを即興的に操作することで,ユーザと効率的に対話し,安価かつリアルタイムな方法で注目を集める,人間とaiの対話のためのテキストチャットの代替案を提案する。私たちの目標は、表情などの非言語的手がかりをリアルタイムで追跡、分析し、この情報を使って人間の行動を予測するモデルを構築することです。検索,統計,深層学習技術に基づく3つの補完的アプローチを提案する。我々は、人間と自動評価を提供し、それぞれの方向の利点とデメリットについて議論する。

関連論文リスト

A Human Digital Twin Architecture for Knowledge-based Interactions and Context-Aware Conversations [0.9580312063277943]
人工知能(AI)と機械学習(ML)の最近の進歩は、HAT(Human-Autonomy Teaming)の新しい機会を生み出している。本稿では,知識報告,回答,レコメンデーションのためのLarge Language Models(LLM)を統合したリアルタイムHuman Digital Twin(HDT)アーキテクチャを提案する。 HDTは、トレーニングからデプロイメント、アフターアクションレビューまで、ミッションライフサイクル全体を通して統合された、視覚的で行動的に現実的なチームメンバーとして機能します。
論文参考訳（メタデータ） (2025-04-04T03:56:26Z)
"Only ChatGPT gets me": An Empirical Analysis of GPT versus other Large Language Models for Emotion Detection in Text [2.6012482282204004]
本研究では,大規模言語モデル(LLM)のテキストによる人間の感情の検出と理解能力について検討する。 GoEmotionsデータセットの最先端モデルとの比較を含む方法論を用いて,感情分析システムとしてのLLMの有効性を評価することを目的とする。
論文参考訳（メタデータ） (2025-03-05T09:47:49Z)
EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文参考訳（メタデータ） (2024-10-30T17:22:45Z)
Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文参考訳（メタデータ） (2024-09-13T18:28:12Z)
Disentangled Interaction Representation for One-Stage Human-Object Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文参考訳（メタデータ） (2023-12-04T08:02:59Z)
Real-time Addressee Estimation: Deployment of a Deep-Learning Model on the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文参考訳（メタデータ） (2023-11-09T13:01:21Z)
Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文参考訳（メタデータ） (2023-10-04T17:59:38Z)
Facial Expression Recognition using Squeeze and Excitation-powered Swin Transformers [0.0]
本研究では,Swin Vision Transformers (SwinT) とSwin Vision Transformers (SE) を用いて,視覚タスクに対処するフレームワークを提案する。我々の焦点は、最小限のデータを使って顔の感情を認識できるSwinTアーキテクチャに基づく効率的なFERモデルを作ることであった。我々は、ハイブリッドデータセットでモデルをトレーニングし、そのパフォーマンスをAffectNetデータセットで評価し、F1スコア0.5420を達成しました。
論文参考訳（メタデータ） (2023-01-26T02:29:17Z)
Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文参考訳（メタデータ） (2022-07-20T13:37:57Z)
BOSS: A Benchmark for Human Belief Prediction in Object-context Scenarios [14.23697277904244]
本稿では,人間と自律システム間の協調を促進させる手法を検討するために,心の理論(ToM)とオブジェクトコンテキスト関係(Object-Context Relations)の複合知識を利用する。本稿では、人工知能(AI)システムによる、オブジェクトコンテキストシナリオにおける人間の信念状態の予測能力を評価するための、新しい、かつ挑戦的なマルチモーダルビデオデータセットを提案する。
論文参考訳（メタデータ） (2022-06-21T18:29:17Z)
TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。 TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T14:53:06Z)
Multi-Cue Adaptive Emotion Recognition Network [4.570705738465714]
適応型マルチキューに基づく感情認識のための新しい深層学習手法を提案する。提案手法とCAER-Sデータセットの最先端手法を比較した。
論文参考訳（メタデータ） (2021-11-03T15:08:55Z)
SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文参考訳（メタデータ） (2021-10-24T02:41:41Z)
Let's be friends! A rapport-building 3D embodied conversational agent for the Human Support Robot [0.0]
会話中の非言語行動の微妙なミラーリング(模倣または平行共感とも呼ばれる)はラプポート構築に不可欠である。本研究の課題は,対話者の表情と頭部の動きを反映できるECAとヒューマンサービスロボットを組み合わせることで,ユーザエクスペリエンスが向上するかどうかである。私たちの貢献は、対話者の顔を追跡し、人間の支援ロボットと統合されたリアルタイムで顔の表情や頭の動きを反映することができる表現的ECAの複雑な統合です。
論文参考訳（メタデータ） (2021-03-08T01:02:41Z)
You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文参考訳（メタデータ） (2020-04-11T12:51:07Z)
Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。 V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文参考訳（メタデータ） (2020-03-31T08:42:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。