論文の概要: HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI
Assistants in the Real World
- arxiv url: http://arxiv.org/abs/2309.17024v1
- Date: Fri, 29 Sep 2023 07:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 15:04:38.634993
- Title: HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI
Assistants in the Real World
- Title(参考訳): HoloAssist: 現実世界の対話型AIアシスタントのためのエゴセントリックなヒューマンインタラクションデータセット
- Authors: Xin Wang, Taein Kwon, Mahdi Rad, Bowen Pan, Ishani Chakraborty, Sean
Andrist, Dan Bohus, Ashley Feniello, Bugra Tekin, Felipe Vieira Frujeri, Neel
Joshi, Marc Pollefeys
- Abstract要約: この研究は、物理的な世界でのタスクを実行することで人間を対話的に導くインテリジェントエージェントを開発するための、より広範な研究努力の一環である。
大規模なエゴセントリックなヒューマンインタラクションデータセットであるHoloAssistを紹介する。
人間のアシスタントがミスを正し、タスク完了手順に介入し、環境に指示を下す方法について、重要な知見を提示する。
- 参考スコア(独自算出の注目度): 48.90399899928823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building an interactive AI assistant that can perceive, reason, and
collaborate with humans in the real world has been a long-standing pursuit in
the AI community. This work is part of a broader research effort to develop
intelligent agents that can interactively guide humans through performing tasks
in the physical world. As a first step in this direction, we introduce
HoloAssist, a large-scale egocentric human interaction dataset, where two
people collaboratively complete physical manipulation tasks. The task performer
executes the task while wearing a mixed-reality headset that captures seven
synchronized data streams. The task instructor watches the performer's
egocentric video in real time and guides them verbally. By augmenting the data
with action and conversational annotations and observing the rich behaviors of
various participants, we present key insights into how human assistants correct
mistakes, intervene in the task completion procedure, and ground their
instructions to the environment. HoloAssist spans 166 hours of data captured by
350 unique instructor-performer pairs. Furthermore, we construct and present
benchmarks on mistake detection, intervention type prediction, and hand
forecasting, along with detailed analysis. We expect HoloAssist will provide an
important resource for building AI assistants that can fluidly collaborate with
humans in the real world. Data can be downloaded at
https://holoassist.github.io/.
- Abstract(参考訳): 現実世界で人間と認識し、理性を持ち、協力できる対話型AIアシスタントを構築することは、AIコミュニティにおける長年の追求だった。
この研究は、物理的な世界でのタスクを実行することで人間を対話的に導くインテリジェントエージェントを開発するための、より広範な研究の一環である。
この方向への第一歩として、大規模なエゴセントリックなヒューマンインタラクションデータセットであるHoloAssistを紹介します。
タスクパフォーマーは、7つの同期データストリームをキャプチャする混合現実ヘッドセットを着用してタスクを実行する。
タスクインストラクターは、パフォーマーのエゴセントリックビデオをリアルタイムで視聴し、それらを口頭でガイドします。
行動や会話のアノテーションでデータを増強し、様々な参加者の豊かな振る舞いを観察することで、ヒューマンアシスタントがミスを正し、タスク完了手順に介入し、環境に指示を下す方法について重要な洞察を提供する。
holoassistは、350のユニークなインストラクターとperformerペアが捕獲した166時間のデータにまたがる。
さらに,誤り検出,介入型予測,手話予測に関するベンチマークを構築し,詳細な分析を行った。
holoassistは、現実世界の人間とスムーズにコラボレーションできるaiアシスタントを構築するための重要なリソースを提供するだろう。
データはhttps://holoassist.github.io/でダウンロードできる。
関連論文リスト
- EgoMimic: Scaling Imitation Learning via Egocentric Video [22.902881956495765]
EgoMimicは、人間の体表データを介して操作をスケールするフルスタックフレームワークである。
EgoMimic は,1) エルゴノミクス・プロジェクト・Aria メガネを用いたヒトの体型データをキャプチャするシステム,2) 人体データとの運動的ギャップを最小限に抑える低コストなバイマティックマニピュレータ,(4) 人体データとロボットデータとのコトレーニングを行う模倣学習アーキテクチャ,の2つによって実現している。
論文 参考訳(メタデータ) (2024-10-31T17:59:55Z) - EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in
One-Shot [56.130215236125224]
オープンドメインでのロボット操作における重要な課題は、ロボットの多様性と一般化可能なスキルの獲得方法である。
単発模倣学習の最近の研究は、訓練されたポリシーを実証に基づく新しいタスクに移行する可能性を示唆している。
本稿では,エージェントがマルチモーダルな知覚で数百の現実世界のスキルを一般化する可能性を解き放つことを目的とする。
論文 参考訳(メタデータ) (2023-07-02T15:33:31Z) - Improving Grounded Language Understanding in a Collaborative Environment
by Interacting with Agents Through Help Feedback [42.19685958922537]
我々は、人間とAIのコラボレーションは対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきだと論じている。
本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。
論文 参考訳(メタデータ) (2023-04-21T05:37:59Z) - Why is AI not a Panacea for Data Workers? An Interview Study on Human-AI
Collaboration in Data Storytelling [59.08591308749448]
業界と学界の18人のデータワーカーにインタビューして、AIとのコラボレーションの場所と方法を聞いた。
驚いたことに、参加者はAIとのコラボレーションに興奮を見せたが、彼らの多くは反感を表明し、曖昧な理由を指摘した。
論文 参考訳(メタデータ) (2023-04-17T15:30:05Z) - Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文 参考訳(メタデータ) (2022-12-13T00:47:13Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - The MECCANO Dataset: Understanding Human-Object Interactions from
Egocentric Videos in an Industrial-like Domain [20.99718135562034]
我々は,産業的な環境下での人間と物体の相互作用を研究するための,エゴセントリックビデオの最初のデータセットであるMECCANOを紹介した。
このデータセットは、人間とオブジェクトの相互作用をエゴセントリックな視点から認識するタスクのために明示的にラベル付けされている。
ベースラインの結果から,MECCANOデータセットは,産業的なシナリオにおける自我中心の人間とオブジェクトの相互作用を研究する上で,困難なベンチマークであることが示された。
論文 参考訳(メタデータ) (2020-10-12T12:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。