論文の概要: GestureGPT: Toward Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2310.12821v4
- Date: Fri, 21 Jun 2024 10:12:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 20:17:56.971818
- Title: GestureGPT: Toward Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents
- Title(参考訳): GestureGPT:大規模言語モデルエージェントによるゼロショット対話型ジェスチャー理解とグラウンド化を目指して
- Authors: Xin Zeng, Xiaoyu Wang, Tengxiang Zhang, Chun Yu, Shengdong Zhao, Yiqiang Chen,
- Abstract要約: GestureGPTは自由形式のジェスチャー理解フレームワークで、ユーザはジェスチャーを学習したり、デモしたり、関連づけたりする必要がなくなる。
我々のフレームワークは,大規模言語モデルの直感的共通感覚と,自発的に実行されたジェスチャーを理解する強力な推論能力を活用している。
私たちは、スマートホームコントロールとオンラインビデオストリーミングという2つの現実シナリオの下で、概念的なフレームワークを検証しました。
- 参考スコア(独自算出の注目度): 35.48323584634582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current gesture interfaces typically demand users to learn and perform gestures from a predefined set, which leads to a less natural experience. Interfaces supporting user-defined gestures eliminate the learning process, but users still need to demonstrate and associate the gesture to a specific system function themselves. We introduce GestureGPT, a free-form hand gesture understanding framework that does not require users to learn, demonstrate, or associate gestures. Our framework leverages the large language model's (LLM) astute common sense and strong inference ability to understand a spontaneously performed gesture from its natural language descriptions, and automatically maps it to a function provided by the interface. More specifically, our triple-agent framework involves a Gesture Description Agent that automatically segments and formulates natural language descriptions of hand poses and movements based on hand landmark coordinates. The description is deciphered by a Gesture Inference Agent through self-reasoning and querying about the interaction context (e.g., interaction history, gaze data), which a Context Management Agent organizes and provides. Following iterative exchanges, the Gesture Inference Agent discerns user intent, grounding it to an interactive function. We validated our conceptual framework under two real-world scenarios: smart home controlling and online video streaming. The average zero-shot Top-5 grounding accuracies are 83.59% for smart home tasks and 73.44% for video streaming. We also provided an extensive discussion of our framework including model selection rationale, generated description quality, generalizability etc.
- Abstract(参考訳): 現在のジェスチャーインターフェースでは、ユーザーが事前に定義されたセットからジェスチャーを学習し実行する必要があるため、より自然な体験が得られない。
ユーザ定義のジェスチャーをサポートするインターフェースは学習プロセスを排除するが、ユーザはまだ、ジェスチャーを特定のシステム機能自体に示し、関連付ける必要がある。
GestureGPTは自由形式のジェスチャー理解フレームワークで、ユーザはジェスチャーを学習したり、デモしたり、関連づけたりする必要がなくなる。
本フレームワークは,自然言語記述から自然に実行されたジェスチャーを理解するために,多言語モデル(LLM)の直感的共通感覚と強い推論能力を活用し,インタフェースによって提供される関数に自動的にマッピングする。
より具体的には、我々のトリプルエージェントフレームワークは、手の位置座標に基づいて手ポーズや動きの自然言語記述を自動的にセグメント化し、定式化するジェスチャー記述エージェントを含んでいる。
この記述は、コンテキスト管理エージェントが組織し提供する相互作用コンテキスト(例えば、インタラクション履歴、視線データ)についての自己推論とクエリを通じて、ジェスチャ推論エージェントによって解読される。
反復的な交換に続いて、gesture Inference Agentはユーザー意図を識別し、それを対話的な機能に固定する。
私たちは、スマートホームコントロールとオンラインビデオストリーミングという2つの現実シナリオの下で、概念的なフレームワークを検証しました。
平均ゼロショットのTop-5接地精度は、スマートホームタスクでは83.59%、ビデオストリーミングでは73.44%である。
また、モデル選択の合理性、生成された記述品質、一般化可能性などを含む、我々のフレームワークに関する広範な議論も行いました。
関連論文リスト
- Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。
実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-09-19T23:05:36Z) - The Gesture Authoring Space: Authoring Customised Hand Gestures for
Grasping Virtual Objects in Immersive Virtual Environments [81.5101473684021]
本研究は、仮想オブジェクトを現実世界のようにつかむことができる、オブジェクト固有のグリップジェスチャーのためのハンドジェスチャーオーサリングツールを提案する。
提示されたソリューションは、ジェスチャー認識にテンプレートマッチングを使用し、カスタムのカスタマイズされた手の動きを設計および作成するために技術的な知識を必要としない。
本研究は,提案手法を用いて作成したジェスチャーが,ユーザによって他のユーザよりも自然な入力モダリティとして認識されていることを示した。
論文 参考訳(メタデータ) (2022-07-03T18:33:33Z) - Communicative Learning with Natural Gestures for Embodied Navigation
Agents with Human-in-the-Scene [34.1812210095966]
我々はAI2-THORプラットフォームに基づくVRベースの3Dシミュレーション環境であるGes-THORを開発した。
この仮想環境において、人間のプレイヤーは同じ仮想シーンに配置され、ジェスチャーのみを用いて人工エージェントを羊飼いする。
自然なジェスチャーの意味を学習することは、ナビゲーションタスクの学習において相互に有益である、と我々は主張する。
論文 参考訳(メタデータ) (2021-08-05T20:56:47Z) - A Framework for Integrating Gesture Generation Models into Interactive
Conversational Agents [0.0]
Embodied conversational agent (ECA) は、自然かつ効率的なユーザとの対話において、非言語行動の恩恵を受ける。
近年のジェスチャー生成手法は,ユーザとのリアルタイムインタラクションでは評価されていない。
本稿では,現代のジェスチャ生成モデルの評価を容易にするための概念実証フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:31:21Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。