論文の概要: IndEgo: A Dataset of Industrial Scenarios and Collaborative Work for Egocentric Assistants
- arxiv url: http://arxiv.org/abs/2511.19684v1
- Date: Mon, 24 Nov 2025 20:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.15135
- Title: IndEgo: A Dataset of Industrial Scenarios and Collaborative Work for Egocentric Assistants
- Title(参考訳): IndEgo:エゴセントリックアシスタントのための産業シナリオと協調作業のデータセット
- Authors: Vivek Chavan, Yasmina Imgrund, Tung Dao, Sanwantri Bai, Bosong Wang, Ze Lu, Oliver Heimann, Jörg Krüger,
- Abstract要約: IndEgoは、一般的な産業タスクに対処するマルチモーダルなエゴセントリックでエクソセントリックなデータセットである。
データセットには3,460件のエゴセントリックな記録(約197時間)と1,092件のエゴセントリックな記録が含まれている。
データセットの重要な焦点は、協調作業であり、2人の労働者が共同で認知的および身体的に集中的なタスクを行う。
- 参考スコア(独自算出の注目度): 7.869752673792282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce IndEgo, a multimodal egocentric and exocentric dataset addressing common industrial tasks, including assembly/disassembly, logistics and organisation, inspection and repair, woodworking, and others. The dataset contains 3,460 egocentric recordings (approximately 197 hours), along with 1,092 exocentric recordings (approximately 97 hours). A key focus of the dataset is collaborative work, where two workers jointly perform cognitively and physically intensive tasks. The egocentric recordings include rich multimodal data and added context via eye gaze, narration, sound, motion, and others. We provide detailed annotations (actions, summaries, mistake annotations, narrations), metadata, processed outputs (eye gaze, hand pose, semi-dense point cloud), and benchmarks on procedural and non-procedural task understanding, Mistake Detection, and reasoning-based Question Answering. Baseline evaluations for Mistake Detection, Question Answering and collaborative task understanding show that the dataset presents a challenge for the state-of-the-art multimodal models. Our dataset is available at: https://huggingface.co/datasets/FraunhoferIPK/IndEgo
- Abstract(参考訳): IndEgoは、組み立て/分解、ロジスティクスと組織、検査と修復、木工など、一般的な産業課題に対処するマルチモーダルなエゴセントリックでエクソセントリックなデータセットである。
データセットには3,460の自我中心記録(約197時間)と1,092の自我中心記録(約97時間)が含まれている。
データセットの重要な焦点は、協調作業であり、2人の労働者が共同で認知的および身体的に集中的なタスクを行う。
エゴセントリックな録音には、リッチなマルチモーダルデータや、目視、ナレーション、音、動きなどのコンテキストが追加されている。
我々は、詳細なアノテーション(アクション、要約、ミスアノテーション、ナレーション)、メタデータ、処理された出力(目視、ポーズ、セミセンスポイントクラウド)、手続き的および非手続き的タスク理解、誤検出、推論に基づく質問応答に関するベンチマークを提供する。
ミステイク検出、質問回答、協調タスク理解のためのベースライン評価は、このデータセットが最先端のマルチモーダルモデルに挑戦していることを示している。
私たちのデータセットは、https://huggingface.co/datasets/FraunhoferIPK/IndEgoで利用可能です。
関連論文リスト
- Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Weakly Supervised Multi-Task Representation Learning for Human Activity
Analysis Using Wearables [2.398608007786179]
本稿では,データを複数の表現空間にマッピングする方法を学習する,弱教師付きマルチ出力シムネットワークを提案する。
データサンプルの表現は、そのアスペクトで同じ意味を持つデータが互いに密接な位置にあるような空間に配置される。
論文 参考訳(メタデータ) (2023-08-06T08:20:07Z) - ATTACH Dataset: Annotated Two-Handed Assembly Actions for Human Action
Understanding [8.923830513183882]
ATTACHデータセットは、95.2kの注釈付き微粒なアクションを3台のカメラで監視する51.6時間のアセンブリを含む。
ATTACHデータセットでは、アノテーションの68%以上が他のアノテーションと重複している。
ビデオおよび骨格配列入力における動作検出だけでなく,動作認識のための最先端手法の性能について報告する。
論文 参考訳(メタデータ) (2023-04-17T12:31:24Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Do I Have Your Attention: A Large Scale Engagement Prediction Dataset
and Baselines [9.896915478880635]
「機械と対話しながら個人によって表される集中、熱意、楽観、情熱の度合いをユーザエンゲージメントと呼ぶ。」
現実の環境で動作可能なエンゲージメント予測システムを構築するためには、リッチで多様なデータセットから学ぶことが不可欠である。
野生データセットEngageNetにおける大規模多面的エンゲージメントを提案する。
論文 参考訳(メタデータ) (2023-02-01T13:25:54Z) - Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文 参考訳(メタデータ) (2022-12-13T00:47:13Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Taskology: Utilizing Task Relations at Scale [28.09712466727001]
共同で訓練することで,タスクの集合間の固有の関係を活用できることが示される。
タスク間の関係を明確に活用することで、パフォーマンスが向上し、ラベル付きデータの必要性が劇的に低減される。
本稿では, 深度と正規予測, セマンティックセグメンテーション, 3次元運動とエゴモーション推定, および点雲における物体追跡と3次元検出という, タスクのサブセットについて示す。
論文 参考訳(メタデータ) (2020-05-14T22:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。