Fugu-MT 論文翻訳(概要): GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents

論文の概要: GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents

arxiv url: http://arxiv.org/abs/2310.12821v3
Date: Mon, 30 Oct 2023 03:04:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 19:37:12.189665
Title: GestureGPT: Zero-shot Interactive Gesture Understanding and Grounding with Large Language Model Agents
Title（参考訳）: GestureGPT:大規模言語モデルエージェントによるゼロショット対話型ジェスチャー理解とグラウンド化
Authors: Xin Zeng, Xiaoyu Wang, Tengxiang Zhang, Chun Yu, Shengdong Zhao, Yiqiang Chen
Abstract要約: 大規模言語モデル(LLM)を活用したゼロショットジェスチャ理解およびグラウンドディングフレームワークであるGestureGPTを紹介した。ジェスチャ記述はジェスチャービデオのランドマーク座標に基づいて定式化され、我々の二重エージェント対話システムに入力される。ジェスチャーエージェントは、インタラクションコンテキストに関するこれらの記述とクエリを解読する。反復交換に続いて、ジェスチャーエージェントは、ユーザ意図を識別し、対話的な機能にグラウンドする。
参考スコア（独自算出の注目度）: 37.598598094423735
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current gesture recognition systems primarily focus on identifying gestures within a predefined set, leaving a gap in connecting these gestures to interactive GUI elements or system functions (e.g., linking a 'thumb-up' gesture to a 'like' button). We introduce GestureGPT, a novel zero-shot gesture understanding and grounding framework leveraging large language models (LLMs). Gesture descriptions are formulated based on hand landmark coordinates from gesture videos and fed into our dual-agent dialogue system. A gesture agent deciphers these descriptions and queries about the interaction context (e.g., interface, history, gaze data), which a context agent organizes and provides. Following iterative exchanges, the gesture agent discerns user intent, grounding it to an interactive function. We validated the gesture description module using public first-view and third-view gesture datasets and tested the whole system in two real-world settings: video streaming and smart home IoT control. The highest zero-shot Top-5 grounding accuracies are 80.11% for video streaming and 90.78% for smart home tasks, showing potential of the new gesture understanding paradigm.
Abstract（参考訳）: 現在のジェスチャー認識システムは、主に事前に定義されたセット内のジェスチャーの識別に重点を置いており、これらのジェスチャーを対話的なGUI要素やシステム機能(例えば 'thumb-up' ジェスチャーを 'like' ボタンにリンクするなど)に接続する際のギャップを残している。我々は,大規模言語モデル(llms)を活用したゼロショットジェスチャ理解と接地フレームワークであるgisgegptを紹介する。ジェスチャ記述はジェスチャビデオのハンドランドマーク座標に基づいて定式化し,デュアルエージェント対話システムへ入力する。ジェスチャーエージェントは、これらの記述を解読し、コンテキストエージェントが整理し提供するインタラクションコンテキスト(インターフェイス、履歴、視線データなど)に関する問い合わせを行う。反復交換に続いて、ジェスチャーエージェントはユーザ意図を識別し、対話的な機能にグラウンドする。ジェスチャー記述モジュールをパブリックなファーストビューとサードビューのジェスチャデータセットを使って検証し、システム全体をビデオストリーミングとスマートホームiotコントロールという2つの現実の設定でテストした。最高のゼロショットトップ5は、ビデオストリーミングの80.11%、スマートホームタスクの90.78%であり、新しいジェスチャー理解パラダイムの可能性を示している。

関連論文リスト

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。本稿では,ジェスチャ・テキスト・音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。我々は,これらの課題を解決するために,三モーダルな音声・テキスト・ビデオ・ジェスチャー表現を学習する新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-28T17:55:52Z)
Large Language Models for Virtual Human Gesture Selection [0.3749861135832072]
共同音声ジェスチャーは様々な意味を伝達し、対面する人間の相互作用において重要な役割を果たす。本研究では,大規模言語モデルのセマンティック機能を用いて,意味のある適切な音声合成手法を提案するジェスチャー選択手法を提案する。
論文参考訳（メタデータ） (2025-03-18T16:49:56Z)
Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文参考訳（メタデータ） (2024-04-16T16:04:38Z)
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。 GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文参考訳（メタデータ） (2023-08-22T17:59:51Z)
Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2022-09-19T23:05:36Z)
The Gesture Authoring Space: Authoring Customised Hand Gestures for Grasping Virtual Objects in Immersive Virtual Environments [81.5101473684021]
本研究は、仮想オブジェクトを現実世界のようにつかむことができる、オブジェクト固有のグリップジェスチャーのためのハンドジェスチャーオーサリングツールを提案する。提示されたソリューションは、ジェスチャー認識にテンプレートマッチングを使用し、カスタムのカスタマイズされた手の動きを設計および作成するために技術的な知識を必要としない。本研究は,提案手法を用いて作成したジェスチャーが,ユーザによって他のユーザよりも自然な入力モダリティとして認識されていることを示した。
論文参考訳（メタデータ） (2022-07-03T18:33:33Z)
Communicative Learning with Natural Gestures for Embodied Navigation Agents with Human-in-the-Scene [34.1812210095966]
我々はAI2-THORプラットフォームに基づくVRベースの3Dシミュレーション環境であるGes-THORを開発した。この仮想環境において、人間のプレイヤーは同じ仮想シーンに配置され、ジェスチャーのみを用いて人工エージェントを羊飼いする。自然なジェスチャーの意味を学習することは、ナビゲーションタスクの学習において相互に有益である、と我々は主張する。
論文参考訳（メタデータ） (2021-08-05T20:56:47Z)
A Framework for Integrating Gesture Generation Models into Interactive Conversational Agents [0.0]
Embodied conversational agent (ECA) は、自然かつ効率的なユーザとの対話において、非言語行動の恩恵を受ける。近年のジェスチャー生成手法は,ユーザとのリアルタイムインタラクションでは評価されていない。本稿では,現代のジェスチャ生成モデルの評価を容易にするための概念実証フレームワークを提案する。
論文参考訳（メタデータ） (2021-02-24T14:31:21Z)
Speech Gesture Generation from the Trimodal Context of Text, Audio, and Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-09-04T11:42:45Z)
Gesticulator: A framework for semantically-aware speech-driven gesture generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文参考訳（メタデータ） (2020-01-25T14:42:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。