Fugu-MT 論文翻訳(概要): How do Foundation Models Compare to Skeleton-Based Approaches for Gesture Recognition in Human-Robot Interaction?

論文の概要: How do Foundation Models Compare to Skeleton-Based Approaches for Gesture Recognition in Human-Robot Interaction?

arxiv url: http://arxiv.org/abs/2506.20795v1
Date: Wed, 25 Jun 2025 19:36:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-27 19:53:09.86633
Title: How do Foundation Models Compare to Skeleton-Based Approaches for Gesture Recognition in Human-Robot Interaction?
Title（参考訳）: 人-ロボットインタラクションにおけるジェスチャ認識のための骨格モデルと骨格モデルの比較
Authors: Stephanie Käs, Anton Burenko, Louis Markert, Onur Alp Culha, Dennis Mack, Timm Linder, Bastian Leibe,
Abstract要約: ジェスチャーは、アジャイル生産のような騒々しい環境で、非言語的な人間とロボットのコミュニケーションを可能にする。従来のディープラーニングに基づくジェスチャー認識は、画像、ビデオ、骨格ポーズ推定を入力として使用するタスク固有のアーキテクチャに依存している。 Vision Foundation Models (VFMs) と Vision Language Models (VLMs) は、その強力な一般化能力によって、システムの複雑さを減らす可能性がある。本研究では、V-JEPA(最先端VFM)、Gemini Flash 2.0(マルチモーダルVLM)、HD-GCN(トップパフォーマンススケルトンベース)を比較し、ダイナミックでフルボディのジェスチャー認識にそのようなモデルを適用することを検討する。
参考スコア（独自算出の注目度）: 9.094835948226063
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Gestures enable non-verbal human-robot communication, especially in noisy environments like agile production. Traditional deep learning-based gesture recognition relies on task-specific architectures using images, videos, or skeletal pose estimates as input. Meanwhile, Vision Foundation Models (VFMs) and Vision Language Models (VLMs) with their strong generalization abilities offer potential to reduce system complexity by replacing dedicated task-specific modules. This study investigates adapting such models for dynamic, full-body gesture recognition, comparing V-JEPA (a state-of-the-art VFM), Gemini Flash 2.0 (a multimodal VLM), and HD-GCN (a top-performing skeleton-based approach). We introduce NUGGET, a dataset tailored for human-robot communication in intralogistics environments, to evaluate the different gesture recognition approaches. In our experiments, HD-GCN achieves best performance, but V-JEPA comes close with a simple, task-specific classification head - thus paving a possible way towards reducing system complexity, by using it as a shared multi-task model. In contrast, Gemini struggles to differentiate gestures based solely on textual descriptions in the zero-shot setting, highlighting the need of further research on suitable input representations for gestures.
Abstract（参考訳）: ジェスチャーは、特にアジャイル生産のような騒々しい環境で、非言語的な人間とロボットのコミュニケーションを可能にする。従来のディープラーニングに基づくジェスチャー認識は、画像、ビデオ、骨格ポーズ推定を入力として使用するタスク固有のアーキテクチャに依存している。一方、Vision Foundation Models (VFM) とVision Language Models (VLM) は、その強力な一般化能力によって、専用のタスク固有のモジュールを置き換えることで、システムの複雑さを減らす可能性がある。本研究では、V-JEPA(最先端VFM)、Gemini Flash 2.0(マルチモーダルVLM)、HD-GCN(トップパフォーマンススケルトンベースアプローチ)を比較し、ダイナミックでフルボディのジェスチャー認識にそのようなモデルを適用することを検討する。本研究では,人間とロボットのコミュニケーションに適したデータセットであるNUGGETを導入し,異なるジェスチャー認識手法の評価を行った。我々の実験では、HD-GCNは最高の性能を達成するが、V-JEPAは単純なタスク固有の分類ヘッドに近づき、共有マルチタスクモデルとして利用することで、システムの複雑さを軽減できる可能性がある。対照的に、ジェミニはゼロショット設定におけるテキスト記述のみに基づくジェスチャーの区別に苦慮しており、ジェスチャーに適した入力表現に関するさらなる研究の必要性を強調している。

関連論文リスト

Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文参考訳（メタデータ） (2024-07-22T12:59:57Z)
Exploring the Potential of Large Foundation Models for Open-Vocabulary HOI Detection [9.788417605537965]
条件付き多レベルデコードと細粒度セマンティックエンハンスメントを備えた新しいエンドツーエンドオープン語彙HOI検出フレームワークを提案する。提案手法は,開語彙HOI検出の最先端化を実現する。
論文参考訳（メタデータ） (2024-04-09T10:27:22Z)
Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文参考訳（メタデータ） (2023-11-07T08:27:32Z)
Towards a Unified Transformer-based Framework for Scene Graph Generation and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。提案手法は最先端のHOI法と比較して競争性能が向上する。
論文参考訳（メタデータ） (2023-11-03T07:25:57Z)
A Multi-label Classification Approach to Increase Expressivity of EMG-based Gesture Recognition [4.701158597171363]
本研究の目的は,表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を効率的に向上することである。動作を2つのバイオメカニカルな独立したコンポーネントに分割する問題変換アプローチを用いる。
論文参考訳（メタデータ） (2023-09-13T20:21:41Z)
Efficient Adaptive Human-Object Interaction Detection with Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。 ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文参考訳（メタデータ） (2023-09-07T13:10:06Z)
Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-08-31T06:53:55Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Snapture -- A Novel Neural Architecture for Combined Static and Dynamic Hand Gesture Recognition [19.320551882950706]
そこで本研究では,新しいハイブリットハンドジェスチャ認識システムを提案する。我々のアーキテクチャは静的なジェスチャーと動的ジェスチャーの両方を学ぶことができる。本研究は,ロボットとの非言語コミュニケーションのためのジェスチャー認識研究と機械学習応用の両方に貢献する。
論文参考訳（メタデータ） (2022-05-28T11:12:38Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。