論文の概要: GestureGPT: Toward Zero-Shot Free-Form Hand Gesture Understanding with Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2310.12821v5
- Date: Mon, 04 Nov 2024 02:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:38:18.811985
- Title: GestureGPT: Toward Zero-Shot Free-Form Hand Gesture Understanding with Large Language Model Agents
- Title(参考訳): GestureGPT: 大規模言語モデルエージェントによるゼロショット自由形ハンドジェスチャ理解を目指して
- Authors: Xin Zeng, Xiaoyu Wang, Tengxiang Zhang, Chun Yu, Shengdong Zhao, Yiqiang Chen,
- Abstract要約: 本稿では,人間のジェスチャー理解を模倣する自由形式の手ジェスチャー理解フレームワークであるGestureGPTを紹介する。
我々のフレームワークは、複数の大規模言語モデルエージェントを利用してジェスチャーや文脈情報を管理し、合成する。
私たちは、スマートホームコントロールとオンラインビデオストリーミングという2つの現実シナリオの下で、私たちのフレームワークをオフラインで検証しました。
- 参考スコア(独自算出の注目度): 35.48323584634582
- License:
- Abstract: Existing gesture interfaces only work with a fixed set of gestures defined either by interface designers or by users themselves, which introduces learning or demonstration efforts that diminish their naturalness. Humans, on the other hand, understand free-form gestures by synthesizing the gesture, context, experience, and common sense. In this way, the user does not need to learn, demonstrate, or associate gestures. We introduce GestureGPT, a free-form hand gesture understanding framework that mimics human gesture understanding procedures to enable a natural free-form gestural interface. Our framework leverages multiple Large Language Model agents to manage and synthesize gesture and context information, then infers the interaction intent by associating the gesture with an interface function. More specifically, our triple-agent framework includes a Gesture Description Agent that automatically segments and formulates natural language descriptions of hand poses and movements based on hand landmark coordinates. The description is deciphered by a Gesture Inference Agent through self-reasoning and querying about the interaction context (e.g., interaction history, gaze data), which is managed by a Context Management Agent. Following iterative exchanges, the Gesture Inference Agent discerns the user's intent by grounding it to an interactive function. We validated our framework offline under two real-world scenarios: smart home control and online video streaming. The average zero-shot Top-1/Top-5 grounding accuracies are 44.79%/83.59% for smart home tasks and 37.50%/73.44% for video streaming tasks. We also provide an extensive discussion that includes rationale for model selection, generalizability, and future research directions for a practical system etc.
- Abstract(参考訳): 既存のジェスチャーインターフェースは、インターフェースデザイナまたはユーザ自身によって定義された固定されたジェスチャーセットでのみ動作する。
一方、人間はジェスチャー、文脈、経験、常識を合成することで自由形式のジェスチャーを理解する。
このように、ユーザはジェスチャーを学習したり、デモしたり、関連づけたりする必要がなくなる。
本稿では,人間のジェスチャー理解手順を模倣した自由形ジェスチャー理解フレームワークであるGestureGPTを紹介し,自然な自由形ジェスチャーインタフェースを実現する。
我々のフレームワークは、複数の大規模言語モデルエージェントを利用してジェスチャーとコンテキスト情報を管理し合成し、インターフェース関数とジェスチャーを関連付けることで相互作用の意図を推論する。
より具体的には、我々の三重エージェントフレームワークには、手話のポーズや動きの自然言語記述を、手話の座標に基づいて自動的に分割し、定式化するジェスチャー記述エージェントが含まれています。
この記述は、コンテキスト管理エージェントが管理するインタラクションコンテキスト(例えば、インタラクション履歴、視線データ)について、自己推論とクエリを通じて、ジェスチャ推論エージェントによって解読される。
反復的交換に続いて、ジェスチャ推論エージェントは、対話的な機能に接地することで、ユーザの意図を識別する。
私たちは、スマートホームコントロールとオンラインビデオストリーミングという2つの現実シナリオの下で、私たちのフレームワークをオフラインで検証しました。
平均ゼロショットのTop-1/Top-5接地精度は、スマートホームタスクでは44.79%/83.59%、ビデオストリーミングタスクでは37.50%/73.44%である。
また、モデル選択の理論的根拠、一般化可能性、実用的なシステムの今後の研究方向性等について、広範囲にわたる議論を行う。
関連論文リスト
- Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。
実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-09-19T23:05:36Z) - The Gesture Authoring Space: Authoring Customised Hand Gestures for
Grasping Virtual Objects in Immersive Virtual Environments [81.5101473684021]
本研究は、仮想オブジェクトを現実世界のようにつかむことができる、オブジェクト固有のグリップジェスチャーのためのハンドジェスチャーオーサリングツールを提案する。
提示されたソリューションは、ジェスチャー認識にテンプレートマッチングを使用し、カスタムのカスタマイズされた手の動きを設計および作成するために技術的な知識を必要としない。
本研究は,提案手法を用いて作成したジェスチャーが,ユーザによって他のユーザよりも自然な入力モダリティとして認識されていることを示した。
論文 参考訳(メタデータ) (2022-07-03T18:33:33Z) - Communicative Learning with Natural Gestures for Embodied Navigation
Agents with Human-in-the-Scene [34.1812210095966]
我々はAI2-THORプラットフォームに基づくVRベースの3Dシミュレーション環境であるGes-THORを開発した。
この仮想環境において、人間のプレイヤーは同じ仮想シーンに配置され、ジェスチャーのみを用いて人工エージェントを羊飼いする。
自然なジェスチャーの意味を学習することは、ナビゲーションタスクの学習において相互に有益である、と我々は主張する。
論文 参考訳(メタデータ) (2021-08-05T20:56:47Z) - A Framework for Integrating Gesture Generation Models into Interactive
Conversational Agents [0.0]
Embodied conversational agent (ECA) は、自然かつ効率的なユーザとの対話において、非言語行動の恩恵を受ける。
近年のジェスチャー生成手法は,ユーザとのリアルタイムインタラクションでは評価されていない。
本稿では,現代のジェスチャ生成モデルの評価を容易にするための概念実証フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:31:21Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。