論文の概要: SigmaCollab: An Application-Driven Dataset for Physically Situated Collaboration
- arxiv url: http://arxiv.org/abs/2511.02560v1
- Date: Tue, 04 Nov 2025 13:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.000247
- Title: SigmaCollab: An Application-Driven Dataset for Physically Situated Collaboration
- Title(参考訳): SigmaCollab: 物理的に位置付けられたコラボレーションのためのアプリケーション駆動データセット
- Authors: Dan Bohus, Sean Andrist, Ann Paradiso, Nick Saw, Tim Schoonbeek, Maia Stiber,
- Abstract要約: データセットは85セッションのセットで構成され、トレーニングされていない参加者は混合現実AIエージェントによってガイドされる。
SigmaCollabには、参加者やシステムオーディオ、ヘッドマウントデバイスからのエゴセントリックカメラビューなど、リッチでマルチモーダルなデータストリームのセットが含まれている。
今後の作業では、データセットを使用して、混合現実支援シナリオにおける物理的に位置付けられたコラボレーションのためのベンチマークセットを構築する計画である。
- 参考スコア(独自算出の注目度): 3.3934960649122856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SigmaCollab, a dataset enabling research on physically situated human-AI collaboration. The dataset consists of a set of 85 sessions in which untrained participants were guided by a mixed-reality assistive AI agent in performing procedural tasks in the physical world. SigmaCollab includes a set of rich, multimodal data streams, such as the participant and system audio, egocentric camera views from the head-mounted device, depth maps, head, hand and gaze tracking information, as well as additional annotations performed post-hoc. While the dataset is relatively small in size (~ 14 hours), its application-driven and interactive nature brings to the fore novel research challenges for human-AI collaboration, and provides more realistic testing grounds for various AI models operating in this space. In future work, we plan to use the dataset to construct a set of benchmarks for physically situated collaboration in mixed-reality task assistive scenarios. SigmaCollab is available at https://github.com/microsoft/SigmaCollab.
- Abstract(参考訳): SigmaCollabは、物理的に位置する人間とAIのコラボレーションを研究できるデータセットである。
データセットは85のセッションで構成され、トレーニングされていない参加者は、物理的な世界で手続き的なタスクを実行するために、混合現実支援AIエージェントによってガイドされる。
SigmaCollabには、参加者とシステムオーディオ、ヘッドマウントデバイスからのエゴセントリックカメラビュー、深度マップ、ヘッド、手、視線追跡情報などのリッチでマルチモーダルなデータストリームと、ポストホックで実行されるアノテーションが含まれている。
データセットのサイズは比較的小さい(約14時間)が、そのアプリケーション駆動でインタラクティブな性質は、人間とAIのコラボレーションにおける新たな研究課題をもたらし、この分野で運用されているさまざまなAIモデルに対して、より現実的なテスト基盤を提供する。
今後の作業では、データセットを使用して、混合現実タスク支援シナリオにおける物理的に位置付けられたコラボレーションのためのベンチマークセットを構築する計画である。
SigmaCollabはhttps://github.com/microsoft/SigmaCollab.comで入手できる。
関連論文リスト
- Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction [5.989044517795631]
本稿では,実世界の同期型マルチモーダルデータ問題に対処するために,カイウーマルチモーダルデータセットを提案する。
このデータセットはまず、人間、環境、ロボットのデータ収集フレームワークを20の被験者と30のインタラクションオブジェクトと統合する。
絶対タイムスタンプに基づく細粒度マルチレベルアノテーションとセマンティックセグメンテーションラベリングを行う。
論文 参考訳(メタデータ) (2025-03-07T08:28:24Z) - Semi-Supervised One-Shot Imitation Learning [83.94646047695412]
ワンショットのImitation Learningは、AIエージェントに1つのデモから新しいタスクを学ぶ能力を持たせることを目的としている。
我々は,学習エージェントにトラジェクトリの大規模なデータセットを提示する,半教師付きOSIL問題設定を導入する。
我々は,この半教師付きOSIL設定に適用可能なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-08-09T18:11:26Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment [43.6454394625555]
HOI-M3は、複数のhumanと複数のオブジェクトの相互作用をモデル化するための、新しい大規模データセットである。
密集したRGBとオブジェクト搭載IMU入力から、人間と物体の両方の正確な3Dトラッキングを提供する。
論文 参考訳(メタデータ) (2024-03-30T09:24:25Z) - Towards Multi-User Activity Recognition through Facilitated Training
Data and Deep Learning for Human-Robot Collaboration Applications [2.3274633659223545]
本研究では、シングルユーザに関するデータを収集し、後処理でそれらをマージすることで、マルチユーザアクティビティに関するデータを集める方法を提案する。
同じ設定で記録されたユーザのグループに関するトレーニングデータを使用する場合と比較して、この方法で収集されたデータをHRC設定のペアに使用し、同様のパフォーマンスを得ることができる。
論文 参考訳(メタデータ) (2023-02-11T19:27:07Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。