論文の概要: Pointing-Guided Target Estimation via Transformer-Based Attention
- arxiv url: http://arxiv.org/abs/2509.05031v1
- Date: Fri, 05 Sep 2025 11:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.580269
- Title: Pointing-Guided Target Estimation via Transformer-Based Attention
- Title(参考訳): Transformer-based Attention を用いたポインティングガイドによるターゲット推定
- Authors: Luca Müller, Hassan Ali, Philipp Allgeuer, Lukáš Gajdošech, Stefan Wermter,
- Abstract要約: ディスティックなジェスチャーは、指さすように、人間が特定の物体や場所に直接注意を向けることを可能にする非言語コミュニケーションの基本的な形態である。
この能力は、ロボットが人間の意図を予測し、適切な反応を予測できるHRI(Human-Robot Interaction)において不可欠である。
NICOLロボットを用いて制御テーブルトップシナリオにおけるオブジェクトの予測を行うモジュールアーキテクチャであるMulti-Modality Inter-TransFormer (MM-ITF)を提案する。
- 参考スコア(独自算出の注目度): 8.35701920541908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deictic gestures, like pointing, are a fundamental form of non-verbal communication, enabling humans to direct attention to specific objects or locations. This capability is essential in Human-Robot Interaction (HRI), where robots should be able to predict human intent and anticipate appropriate responses. In this work, we propose the Multi-Modality Inter-TransFormer (MM-ITF), a modular architecture to predict objects in a controlled tabletop scenario with the NICOL robot, where humans indicate targets through natural pointing gestures. Leveraging inter-modality attention, MM-ITF maps 2D pointing gestures to object locations, assigns a likelihood score to each, and identifies the most likely target. Our results demonstrate that the method can accurately predict the intended object using monocular RGB data, thus enabling intuitive and accessible human-robot collaboration. To evaluate the performance, we introduce a patch confusion matrix, providing insights into the model's predictions across candidate object locations. Code available at: https://github.com/lucamuellercode/MMITF.
- Abstract(参考訳): ディスティックなジェスチャーは、指さすように、人間が特定の物体や場所に直接注意を向けることを可能にする非言語コミュニケーションの基本的な形態である。
この能力は、ロボットが人間の意図を予測し、適切な反応を予測できるHRI(Human-Robot Interaction)において不可欠である。
本研究では,制御テーブルトップシナリオのオブジェクトをNICOLロボットで予測するモジュールアーキテクチャであるMulti-Modality Inter-TransFormer (MM-ITF)を提案する。
MM-ITFは、モダリティ間の注意を生かし、2Dの指し示すジェスチャーをオブジェクトの位置にマッピングし、それぞれに確率スコアを割り当て、最も可能性の高いターゲットを特定する。
提案手法は,単分子RGBデータを用いて対象物を正確に予測し,直感的でアクセスしやすい協調作業を可能にする。
性能を評価するためにパッチ混乱行列を導入し、候補となる対象の場所をまたいだモデルの予測について考察する。
https://github.com/lucamuellercode/MMITF.com
関連論文リスト
- Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for
Human-Object Interaction Detection [20.983998911754792]
2段階のHuman-Object Interaction (HOI)検出器は1段階法よりも性能が低い。
これらの問題を解決するために視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。
ViPLOは2つの公開ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-04-17T09:44:54Z) - Human keypoint detection for close proximity human-robot interaction [29.99153271571971]
近接ロボット相互作用の文脈における最先端人間のキーポイント検出器の性能について検討した。
MMPoseとAlphaPoseは近接して全体キーポイント検出器を動作させたが、どちらも指検出に難しかった。
本稿では,MMPose または AlphaPose の身体用と MediaPipe を,最も正確かつ堅牢な検出が可能な単一のフレームワークで組み合わせて提案する。
論文 参考訳(メタデータ) (2022-07-15T20:33:29Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。