論文の概要: A Framework for Integrating Gesture Generation Models into Interactive
Conversational Agents
- arxiv url: http://arxiv.org/abs/2102.12302v1
- Date: Wed, 24 Feb 2021 14:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:20:39.696645
- Title: A Framework for Integrating Gesture Generation Models into Interactive
Conversational Agents
- Title(参考訳): 対話型会話エージェントへのジェスチャ生成モデル統合のためのフレームワーク
- Authors: Rajmund Nagy, Taras Kucherenko, Birger Moell, Andr\'e Pereira, Hedvig
Kjellstr\"om and Ulysses Bernardet
- Abstract要約: Embodied conversational agent (ECA) は、自然かつ効率的なユーザとの対話において、非言語行動の恩恵を受ける。
近年のジェスチャー生成手法は,ユーザとのリアルタイムインタラクションでは評価されていない。
本稿では,現代のジェスチャ生成モデルの評価を容易にするための概念実証フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied conversational agents (ECAs) benefit from non-verbal behavior for
natural and efficient interaction with users. Gesticulation - hand and arm
movements accompanying speech - is an essential part of non-verbal behavior.
Gesture generation models have been developed for several decades: starting
with rule-based and ending with mainly data-driven methods. To date, recent
end-to-end gesture generation methods have not been evaluated in a real-time
interaction with users. We present a proof-of-concept framework, which is
intended to facilitate evaluation of modern gesture generation models in
interaction.
We demonstrate an extensible open-source framework that contains three
components: 1) a 3D interactive agent; 2) a chatbot backend; 3) a gesticulating
system. Each component can be replaced, making the proposed framework
applicable for investigating the effect of different gesturing models in
real-time interactions with different communication modalities, chatbot
backends, or different agent appearances. The code and video are available at
the project page https://nagyrajmund.github.io/project/gesturebot.
- Abstract(参考訳): Embodied conversational agent (ECA) は、自然かつ効率的なユーザとの対話において、非言語行動の恩恵を受ける。
発話に伴う手と腕の動きは、非言語行動の不可欠な部分である。
ジェスチャー生成モデルは数十年前から開発されており、ルールベースから始まり、主にデータ駆動メソッドで終わる。
これまで,ユーザとのリアルタイムインタラクションにおいて,最近のジェスチャー生成手法は評価されていない。
本稿では,現代のジェスチャ生成モデルの評価を容易にする概念実証フレームワークを提案する。
1)対話型エージェント,2)チャットボットバックエンド,3)ジェスチャーシステム,の3つのコンポーネントを含む拡張可能なオープンソースフレームワークを実演する。
各コンポーネントを置き換えることができ、異なる通信モダリティ、チャットボットバックエンド、あるいは異なるエージェント外観とのリアルタイムインタラクションにおける異なるジェスチャーモデルの効果を調査するためのフレームワークが提案される。
コードとビデオはプロジェクトページhttps://nagyrajmund.github.io/project/gesturebotで見ることができる。
関連論文リスト
- Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Modeling Real-Time Interactive Conversations as Timed Diarized Transcripts [11.067252960486272]
本稿では,事前学習した言語モデルを用いて,リアルタイム対話型会話をシミュレートする簡易かつ汎用的な手法を提案する。
本稿では,インスタントメッセージ対話と音声会話の2つのケーススタディを用いて,この手法の可能性を実証する。
論文 参考訳(メタデータ) (2024-05-21T21:14:31Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - GestureGPT: Toward Zero-Shot Free-Form Hand Gesture Understanding with Large Language Model Agents [35.48323584634582]
本稿では,人間のジェスチャー理解を模倣する自由形式の手ジェスチャー理解フレームワークであるGestureGPTを紹介する。
我々のフレームワークは、複数の大規模言語モデルエージェントを利用してジェスチャーや文脈情報を管理し、合成する。
私たちは、スマートホームコントロールとオンラインビデオストリーミングという2つの現実シナリオの下で、私たちのフレームワークをオフラインで検証しました。
論文 参考訳(メタデータ) (2023-10-19T15:17:34Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation
of Facial Gestures in Dyadic Settings [11.741529272872219]
より自然な対面インタラクションを可能にするために、会話エージェントは、彼らの振る舞いをインターロケータに適応させる必要がある。
既存のジェスチャ生成システムの多くは、非言語的振る舞いを合成する際に、インターロカタからのマルチモーダルキューを使用しない。
本稿では,対話における顔のジェスチャーを対話的に合成する確率的手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T14:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。