論文の概要: QUB-PHEO: A Visual-Based Dyadic Multi-View Dataset for Intention Inference in Collaborative Assembly
- arxiv url: http://arxiv.org/abs/2409.15560v1
- Date: Mon, 23 Sep 2024 21:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 12:23:41.931141
- Title: QUB-PHEO: A Visual-Based Dyadic Multi-View Dataset for Intention Inference in Collaborative Assembly
- Title(参考訳): QUB-PHEO:協調アセンブリにおける意図推論のための視覚的多視点データセット
- Authors: Samuel Adebayo, Seán McLoone, Joost C. Dessing,
- Abstract要約: QUB-PHEOは、人間-ロボット相互作用(HRI)研究を前進させる可能性を備えた、視覚に基づく、ダイアディックなデータセットを導入している。
このデータセットは、2人の参加者間のリッチなマルチモーダルインタラクションをキャプチャします。
QUB-PHEOは微妙な相互作用の手がかりと意図をより深く分析し、この分野への貢献を約束する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: QUB-PHEO introduces a visual-based, dyadic dataset with the potential of advancing human-robot interaction (HRI) research in assembly operations and intention inference. This dataset captures rich multimodal interactions between two participants, one acting as a 'robot surrogate,' across a variety of assembly tasks that are further broken down into 36 distinct subtasks. With rich visual annotations, such as facial landmarks, gaze, hand movements, object localization, and more for 70 participants, QUB-PHEO offers two versions: full video data for 50 participants and visual cues for all 70. Designed to improve machine learning models for HRI, QUB-PHEO enables deeper analysis of subtle interaction cues and intentions, promising contributions to the field. The dataset will be available at https://github.com/exponentialR/QUB-PHEO subject to an End-User License Agreement (EULA).
- Abstract(参考訳): QUB-PHEOは、組み立て操作と意図推論におけるヒト-ロボット相互作用(HRI)研究を前進させる可能性を備えた、視覚に基づく、ダイアディックなデータセットを導入している。
このデータセットは、2人の参加者間のリッチなマルチモーダルインタラクションをキャプチャします。
顔のランドマーク、視線、手の動き、オブジェクトのローカライゼーションなどのリッチな視覚アノテーションによって、QUB-PHEOは、50人全員のフルビデオデータと、70人全員の視覚的手がかりの2つのバージョンを提供する。
HRIのための機械学習モデルを改善するために設計されたQUB-PHEOは、微妙なインタラクションのキューと意図をより深く分析し、この分野への有望な貢献を可能にする。
データセットは、EULA(End-User License Agreement)の対象となるhttps://github.com/exponentialR/QUB-PHEOで提供される。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - MM-Conv: A Multi-modal Conversational Dataset for Virtual Humans [4.098892268127572]
物理シミュレーター(AI2-THOR)内の参加者間の会話を記録するためにVRヘッドセットを用いた新しいデータセットを提案する。
我々の主な目的は、参照設定にリッチな文脈情報を組み込むことで、共同音声ジェスチャ生成の分野を拡張することである。
論文 参考訳(メタデータ) (2024-09-30T21:51:30Z) - Open-World Human-Object Interaction Detection via Multi-modal Prompts [26.355054079885463]
MP-HOIは多モードのPromptベースの強力なHOI検出器であり、オープンセットの一般化のためのテキスト記述と、説明の曖昧さを扱う視覚的見本の両方を活用するように設計されている。
MP-HOIは一般のHOI検出器として機能し、既存の専門家モデルのHOI語彙を30倍以上上回った。
論文 参考訳(メタデータ) (2024-06-11T13:01:45Z) - G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis [57.07638884476174]
G-HOPは手-対象相互作用の前駆体である。
人手は骨格距離場を介して表現し、物体の符号付き距離場と整合した表現を得る。
この手動物体は、対話クリップからの再構成や人間のつかみ合成など、他の作業を容易にするための汎用的なガイダンスとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-18T17:59:28Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - First Place Solution to the CVPR'2023 AQTC Challenge: A
Function-Interaction Centric Approach with Spatiotemporal Visual-Language
Alignment [15.99008977852437]
AQTC(Affordance-Centric Question-driven Task Completion)は、ビデオから包括的かつ体系的な指示を持つユーザに取得するために提案されている。
既存の手法は、視覚的信号と言語的信号の整合性、および人間の物体間の重要な相互作用情報を無視してきた。
本稿では,安定かつ信頼性の高いマルチモーダルデータに寄与する大規模事前学習型視覚モデルとビデオ言語モデルを組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-06-23T09:02:25Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。