論文の概要: GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding
with Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2310.12821v2
- Date: Fri, 20 Oct 2023 04:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 11:14:19.012928
- Title: GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding
with Large Language Model Agents
- Title(参考訳): GestureGPT:大規模言語モデルエージェントによるゼロショット対話型ジェスチャー理解とグラウンド化
- Authors: Xin Zeng, Xiaoyu Wang, Tengxiang Zhang, Chun Yu, Shengdong Zhao,
Yiqiang Chen
- Abstract要約: 大規模言語モデル(LLM)を活用したゼロショットジェスチャ理解およびグラウンドディングフレームワークであるGestureGPTを紹介した。
ジェスチャ記述はジェスチャービデオのランドマーク座標に基づいて定式化され、我々の二重エージェント対話システムに入力される。
ジェスチャーエージェントは、インタラクションコンテキストに関するこれらの記述とクエリを解読する。
反復交換に続いて、ジェスチャーエージェントは、ユーザ意図を識別し、対話的な機能にグラウンドする。
- 参考スコア(独自算出の注目度): 37.598598094423735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current gesture recognition systems primarily focus on identifying gestures
within a predefined set, leaving a gap in connecting these gestures to
interactive GUI elements or system functions (e.g., linking a 'thumb-up'
gesture to a 'like' button). We introduce GestureGPT, a novel zero-shot gesture
understanding and grounding framework leveraging large language models (LLMs).
Gesture descriptions are formulated based on hand landmark coordinates from
gesture videos and fed into our dual-agent dialogue system. A gesture agent
deciphers these descriptions and queries about the interaction context (e.g.,
interface, history, gaze data), which a context agent organizes and provides.
Following iterative exchanges, the gesture agent discerns user intent,
grounding it to an interactive function. We validated the gesture description
module using public first-view and third-view gesture datasets and tested the
whole system in two real-world settings: video streaming and smart home IoT
control. The highest zero-shot Top-5 grounding accuracies are 80.11% for video
streaming and 90.78% for smart home tasks, showing potential of the new gesture
understanding paradigm.
- Abstract(参考訳): 現在のジェスチャー認識システムは、主に事前に定義されたセット内のジェスチャーの識別に重点を置いており、これらのジェスチャーを対話的なGUI要素やシステム機能(例えば 'thumb-up' ジェスチャーを 'like' ボタンにリンクするなど)に接続する際のギャップを残している。
我々は,大規模言語モデル(llms)を活用したゼロショットジェスチャ理解と接地フレームワークであるgisgegptを紹介する。
ジェスチャ記述はジェスチャビデオのハンドランドマーク座標に基づいて定式化し,デュアルエージェント対話システムへ入力する。
ジェスチャーエージェントは、これらの記述を解読し、コンテキストエージェントが整理し提供するインタラクションコンテキスト(インターフェイス、履歴、視線データなど)に関する問い合わせを行う。
反復交換に続いて、ジェスチャーエージェントはユーザ意図を識別し、対話的な機能にグラウンドする。
ジェスチャー記述モジュールをパブリックなファーストビューとサードビューのジェスチャデータセットを使って検証し、システム全体をビデオストリーミングとスマートホームiotコントロールという2つの現実の設定でテストした。
最高のゼロショットトップ5は、ビデオストリーミングの80.11%、スマートホームタスクの90.78%であり、新しいジェスチャー理解パラダイムの可能性を示している。
関連論文リスト
- Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。
実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-09-19T23:05:36Z) - The Gesture Authoring Space: Authoring Customised Hand Gestures for
Grasping Virtual Objects in Immersive Virtual Environments [81.5101473684021]
本研究は、仮想オブジェクトを現実世界のようにつかむことができる、オブジェクト固有のグリップジェスチャーのためのハンドジェスチャーオーサリングツールを提案する。
提示されたソリューションは、ジェスチャー認識にテンプレートマッチングを使用し、カスタムのカスタマイズされた手の動きを設計および作成するために技術的な知識を必要としない。
本研究は,提案手法を用いて作成したジェスチャーが,ユーザによって他のユーザよりも自然な入力モダリティとして認識されていることを示した。
論文 参考訳(メタデータ) (2022-07-03T18:33:33Z) - Communicative Learning with Natural Gestures for Embodied Navigation
Agents with Human-in-the-Scene [34.1812210095966]
我々はAI2-THORプラットフォームに基づくVRベースの3Dシミュレーション環境であるGes-THORを開発した。
この仮想環境において、人間のプレイヤーは同じ仮想シーンに配置され、ジェスチャーのみを用いて人工エージェントを羊飼いする。
自然なジェスチャーの意味を学習することは、ナビゲーションタスクの学習において相互に有益である、と我々は主張する。
論文 参考訳(メタデータ) (2021-08-05T20:56:47Z) - A Framework for Integrating Gesture Generation Models into Interactive
Conversational Agents [0.0]
Embodied conversational agent (ECA) は、自然かつ効率的なユーザとの対話において、非言語行動の恩恵を受ける。
近年のジェスチャー生成手法は,ユーザとのリアルタイムインタラクションでは評価されていない。
本稿では,現代のジェスチャ生成モデルの評価を容易にするための概念実証フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:31:21Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。