Fugu-MT 論文翻訳(概要): Evaluating Pointing Gestures for Target Selection in Human-Robot Collaboration

論文の概要: Evaluating Pointing Gestures for Target Selection in Human-Robot Collaboration

arxiv url: http://arxiv.org/abs/2506.22116v1
Date: Fri, 27 Jun 2025 10:51:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 21:12:23.180491
Title: Evaluating Pointing Gestures for Target Selection in Human-Robot Collaboration
Title（参考訳）: ロボット協調作業における目標選択のためのポインティング・ジェスチャの評価
Authors: Noora Sassali, Roel Pieters,
Abstract要約: 本研究では,平面ワークスペース内におけるポインティングターゲットのローカライズ手法を提案する。提案手法はポーズ推定と,RGB-Dストリームからジェスチャーデータを抽出するショルダー・ブラスト拡張に基づく簡易幾何モデルを用いる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pointing gestures are a common interaction method used in Human-Robot Collaboration for various tasks, ranging from selecting targets to guiding industrial processes. This study introduces a method for localizing pointed targets within a planar workspace. The approach employs pose estimation, and a simple geometric model based on shoulder-wrist extension to extract gesturing data from an RGB-D stream. The study proposes a rigorous methodology and comprehensive analysis for evaluating pointing gestures and target selection in typical robotic tasks. In addition to evaluating tool accuracy, the tool is integrated into a proof-of-concept robotic system, which includes object detection, speech transcription, and speech synthesis to demonstrate the integration of multiple modalities in a collaborative application. Finally, a discussion over tool limitations and performance is provided to understand its role in multimodal robotic systems. All developments are available at: https://github.com/NMKsas/gesture_pointer.git.
Abstract（参考訳）: ポインティングジェスチャは、ターゲットの選択から産業プロセスの導出まで、さまざまなタスクにおいてヒューマン・ロボット・コラボレーションで使用される一般的なインタラクション手法である。本研究では,平面ワークスペース内におけるポインティングターゲットのローカライズ手法を提案する。提案手法はポーズ推定と,RGB-Dストリームからジェスチャーデータを抽出するショルダー・ブラスト拡張に基づく簡易幾何モデルを用いる。本研究は,典型的なロボット作業におけるポインティングジェスチャとターゲット選択を評価するための厳密な方法論と包括的分析を提案する。ツールの精度の評価に加えて、オブジェクト検出、音声書き起こし、音声合成を含む概念実証ロボットシステムに統合され、協調アプリケーションにおける複数のモードの統合を実証する。最後に、マルチモーダルロボットシステムにおけるその役割を理解するために、ツールの制限と性能に関する議論を行う。すべての開発は、https://github.com/NMKsas/gesture_pointer.gitで利用可能である。

関連論文リスト

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文参考訳（メタデータ） (2024-10-30T17:37:31Z)
Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文参考訳（メタデータ） (2024-10-08T20:46:39Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
DITTO: Demonstration Imitation by Trajectory Transformation [31.930923345163087]
そこで本研究では,RGB-Dビデオ録画による実演映像のワンショット模倣の問題に対処する。本稿では,2段階のプロセスを提案する。第1段階では実演軌道をオフラインに抽出し,操作対象のセグメンテーションと,容器などの二次物体に対する相対運動を決定する。オンライン軌道生成段階では、まず全ての物体を再検出し、次にデモ軌道を現在のシーンにワープし、ロボット上で実行します。
論文参考訳（メタデータ） (2024-03-22T13:46:51Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文参考訳（メタデータ） (2023-10-04T00:50:21Z)
Learn Fast, Segment Well: Fast Object Segmentation Learning on the iCub Robot [20.813028212068424]
我々は、新しいオブジェクトや異なるドメインの存在下で、オブジェクトセグメンテーションモデルに適応できる様々な技術について研究する。データをストリーム化するロボットアプリケーションのための高速なインスタンスセグメンテーション学習のためのパイプラインを提案する。提案したパイプラインを2つのデータセットでベンチマークし、実際のロボットであるiCubヒューマノイドにデプロイする。
論文参考訳（メタデータ） (2022-06-27T17:14:04Z)
V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文参考訳（メタデータ） (2021-11-07T02:31:09Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)
Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文参考訳（メタデータ） (2021-03-17T15:24:02Z)
Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T23:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。