Fugu-MT 論文翻訳(概要): A Gesture-Based Visual Learning Model for Acoustophoretic Interactions using a Swarm of AcoustoBots

論文の概要: A Gesture-Based Visual Learning Model for Acoustophoretic Interactions using a Swarm of AcoustoBots

arxiv url: http://arxiv.org/abs/2604.19643v1
Date: Tue, 21 Apr 2026 16:32:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.872663
Title: A Gesture-Based Visual Learning Model for Acoustophoretic Interactions using a Swarm of AcoustoBots
Title（参考訳）: 音響ロボット群を用いた聴覚的インタラクションのためのジェスチャーベース視覚学習モデル
Authors: Alex Lin, Lei Gao, Narsimlu Kemsaram, Sriram Subramanian,
Abstract要約: AcoustoBotsは、触覚、指向性オーディオ、音響浮揚を届けるモバイル・アココノトペティック・ロボットだ。既存の実装はスクリプト化されたコマンドに依存しており、リアルタイムなヒューマンコントロールのための直感的なインターフェースがない。本研究では,マルチモーダルなAcoustoBotプラットフォームと非接触型ヒューマン・スワームインタラクションのためのジェスチャーに基づく視覚学習フレームワークを提案する。
参考スコア（独自算出の注目度）: 8.171680721155761
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: AcoustoBots are mobile acoustophoretic robots capable of delivering mid-air haptics, directional audio, and acoustic levitation, but existing implementations rely on scripted commands and lack an intuitive interface for real-time human control. This work presents a gesture-based visual learning framework for contactless human-swarm interaction with a multimodal AcoustoBot platform. The system combines ESP32-CAM gesture capture, PhaseSpace motion tracking, centralized processing, and an OpenCLIP-based visual learning model (VLM) with linear probing to classify three hand gestures and map them to haptics, audio, and levitation modalities. Validation accuracy improved from about 67% with a small dataset to nearly 98% with the largest dataset. In integrated experiments with two AcoustoBots, the system achieved an overall gesture-to-modality switching accuracy of 87.8% across 90 trials, with an average end-to-end latency of 3.95 seconds. These results demonstrate the feasibility of using a vision-language-model-based gesture interface for multimodal human-swarm interaction. While the current system is limited by centralized processing, a static gesture set, and controlled-environment evaluation, it establishes a foundation for more expressive, scalable, and accessible swarm robotic interfaces.
Abstract（参考訳）: AcoustoBotsは、空中触覚、指向性オーディオ、音響浮揚を提供することができるモバイル・アコココトポテティック・ロボットだが、既存の実装はスクリプト化されたコマンドに依存しており、リアルタイムの人間制御のための直感的なインターフェースが欠如している。本研究では,マルチモーダルなAcoustoBotプラットフォームと非接触型ヒューマン・スワームインタラクションのためのジェスチャーに基づく視覚学習フレームワークを提案する。このシステムは、ESP32-CAMジェスチャーキャプチャ、フェーズスペースのモーショントラッキング、集中処理、およびOpenCLIPベースのビジュアルラーニングモデル(VLM)を組み合わせて、3つの手ジェスチャーを分類し、触覚、オーディオ、浮揚モードにマッピングする。検証精度は、小さなデータセットで約67%から、最大のデータセットで約98%に向上した。 2台のAcoustoBotによる総合的な実験では、90回の試験でジェスチャーからモダリティへの切り替えの精度は87.8%に達し、平均的なエンドツーエンドのレイテンシは3.95秒であった。これらの結果は,視覚言語モデルに基づくジェスチャーインタフェースによるマルチモーダルヒューマン・スワムインタラクションの実現可能性を示している。現在のシステムは、集中処理、静的なジェスチャーセット、制御された環境評価によって制限されているが、より表現力があり、スケーラブルでアクセスしやすいSwarmロボットインタフェースの基礎を確立する。

関連論文リスト

Robotic Grasping and Placement Controlled by EEG-Based Hybrid Visual and Motor Imagery [64.82869118243723]
本稿では,脳波に基づく視覚・運動画像(VI/MI)とロボット制御を統合し,リアルタイム・意図駆動型把握・配置を実現するフレームワークを提案する。このシステムは、BCI駆動のロボット工学の約束に感銘を受けて、オフラインで事前訓練されたデコーダをゼロショットで展開することによって、ニューラルネットワークを物理的制御でブリッジする。
論文参考訳（メタデータ） (2026-03-03T17:41:42Z)
An Approach to Combining Video and Speech with Large Language Models in Human-Robot Interaction [0.0]
本研究は,高度な視覚言語モデル,音声処理,ファジィ論理を組み合わせた新しいHRIフレームワークを提案する。提案システムは,物体検出のためのFlorence-2,自然言語理解のためのLlama 3.1,音声認識のためのWhisperを統合した。コンシューマグレードハードウェアで行った実験の結果,コマンド実行精度は75%であった。
論文参考訳（メタデータ） (2026-02-23T09:05:15Z)
How do Foundation Models Compare to Skeleton-Based Approaches for Gesture Recognition in Human-Robot Interaction? [9.094835948226063]
ジェスチャーは、アジャイル生産のような騒々しい環境で、非言語的な人間とロボットのコミュニケーションを可能にする。従来のディープラーニングに基づくジェスチャー認識は、画像、ビデオ、骨格ポーズ推定を入力として使用するタスク固有のアーキテクチャに依存している。 Vision Foundation Models (VFMs) と Vision Language Models (VLMs) は、その強力な一般化能力によって、システムの複雑さを減らす可能性がある。本研究では、V-JEPA(最先端VFM)、Gemini Flash 2.0(マルチモーダルVLM)、HD-GCN(トップパフォーマンススケルトンベース)を比較し、ダイナミックでフルボディのジェスチャー認識にそのようなモデルを適用することを検討する。
論文参考訳（メタデータ） (2025-06-25T19:36:45Z)
DiG-Net: Enhancing Quality of Life through Hyper-Range Dynamic Gesture Recognition in Assistive Robotics [2.625826951636656]
ロボット工学に特化して設計された新しいアプローチを導入し,最大30mの距離で動的ジェスチャー認識を実現する。提案手法では,DADAブロックと時空間グラフモジュールを効果的に組み合わせ,距離対応ゲスチャネットワーク(DiG-Net)を提案する。かなりの距離からジェスチャーを効果的に解釈することにより、DiG-Netは在宅医療、産業安全、遠隔支援シナリオにおける補助ロボットのユーザビリティを著しく向上させる。
論文参考訳（メタデータ） (2025-05-30T16:47:44Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文参考訳（メタデータ） (2023-11-27T14:32:33Z)
Robotic Detection of a Human-Comprehensible Gestural Language for Underwater Multi-Human-Robot Collaboration [16.823029377470363]
本稿では,自律型水中車両(AUV)とヒトダイバーの非言語コミュニケーションを可能にする移動型ロボット通信フレームワークを提案する。我々は,会話を観察するダイバーが容易に理解できるAUV-to-A通信のためのジェスチャー言語を設計する。 Asが別のAUVからのジェスチャーを視覚的に理解できるようにするために,自己認識機構を利用したディープネットワーク(RRCommNet)を提案する。
論文参考訳（メタデータ） (2022-07-12T06:04:12Z)
Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文参考訳（メタデータ） (2022-05-30T04:52:58Z)
A Wireless-Vision Dataset for Privacy Preserving Human Activity Recognition [53.41825941088989]
アクティビティ認識の堅牢性を改善するため,WiNN(WiFi-based and video-based neural network)が提案されている。以上の結果から,WiViデータセットは一次需要を満足し,パイプライン内の3つのブランチはすべて,80%以上のアクティビティ認識精度を維持していることがわかった。
論文参考訳（メタデータ） (2022-05-24T10:49:11Z)
Metric-based multimodal meta-learning for human movement identification via footstep recognition [3.300376360949452]
マルチモーダル・フレームワークを導入した新しいメトリック・ベース・ラーニング・アプローチについて述べる。我々は,全方位センサシステムから得られた低感度データから汎用表現を学習する。本研究は,マルチセンサデータに対するメトリクスに基づくコントラスト学習手法を用いて,データ不足の影響を緩和する。
論文参考訳（メタデータ） (2021-11-15T18:46:14Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。