論文の概要: IMPACT: A Dataset for Multi-Granularity Human Procedural Action Understanding in Industrial Assembly
- arxiv url: http://arxiv.org/abs/2604.10409v1
- Date: Sun, 12 Apr 2026 02:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.998146
- Title: IMPACT: A Dataset for Multi-Granularity Human Procedural Action Understanding in Industrial Assembly
- Title(参考訳): IMPACT:産業会議における多言語ヒューマン・手続き的行動理解のためのデータセット
- Authors: Di Wen, Zeyun Zhong, David Schneider, Manuel Zaremski, Linus Kunzmann, Yitian Shi, Ruiping Liu, Yufan Chen, Junwei Zheng, Jiahang Li, Jonas Hemmerich, Qiyi Tong, Patric Grauberger, Arash Ajoudani, Danda Pani Paudel, Sven Matthiesen, Barbara Deml, Jürgen Beyerer, Luc Van Gool, Rainer Stiefelhagen, Kunyu Peng,
- Abstract要約: IMPACTは、デプロイメント指向の産業手続き的理解のための5ビューのRGB-Dデータセットである。
実際の組み立てと、プロ向けのツールを備えた商業用アングルグラインダーの分解を中心に構築されている。
- 参考スコア(独自算出の注目度): 79.737814043505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce IMPACT, a synchronized five-view RGB-D dataset for deployment-oriented industrial procedural understanding, built around real assembly and disassembly of a commercial angle grinder with professional-grade tools. To our knowledge, IMPACT is the first real industrial assembly benchmark that jointly provides synchronized ego-exo RGB-D capture, decoupled bimanual annotation, compliance-aware state tracking, and explicit anomaly--recovery supervision within a single real industrial workflow. It comprises 112 trials from 13 participants totaling 39.5 hours, with multi-route execution governed by a partial-order prerequisite graph, a six-category anomaly taxonomy, and operator cognitive load measured via NASA-TLX. The annotation hierarchy links hand-specific atomic actions to coarse procedural steps, component assembly states, and per-hand compliance phases, with synchronized null spans across views to decouple perceptual limitations from algorithmic failure. Systematic baselines reveal fundamental limitations that remain invisible to single-task benchmarks, particularly under realistic deployment conditions that involve incomplete observations, flexible execution paths, and corrective behavior. The full dataset, annotations, and evaluation code are available at https://github.com/Kratos-Wen/IMPACT.
- Abstract(参考訳): IMPACTは、デプロイ指向の産業手続き的理解のための5ビューのRGB-Dデータセットであり、実際の組み立てと商用アングルグラインダーとプロフェッショナルグレードのツールの分解を中心に構築されている。
私たちの知る限り、IMPACTは、同期されたエゴエクソなRGB-Dキャプチャ、デカップリングされたバイマナルアノテーション、コンプライアンス対応状態追跡、明示的な異常回復を単一の産業ワークフロー内で共同で提供する、最初の実際の産業アセンブリベンチマークです。
13人の被験者による112の試験は39.5時間で、複数ルートの実行は、部分順序の前提条件グラフ、6カテゴリーの異常分類、NASA-TLXで測定されたオペレータ認知負荷によって管理されている。
アノテーション階層は、手固有のアトミックアクションを、粗い手続きステップ、コンポーネントアセンブリ状態、手動コンプライアンスフェーズにリンクする。
システムベースラインは、特に不完全な観察、柔軟な実行パス、修正行動を含む現実的なデプロイメント条件下では、シングルタスクのベンチマークでは見えない基本的な制限を明らかにします。
完全なデータセット、アノテーション、評価コードはhttps://github.com/Kratos-Wen/IMPACTで公開されている。
関連論文リスト
- FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - Real-time Appearance-based Gaze Estimation for Open Domains [15.195617974731766]
本稿では,人手による付加的なデータを必要としない,高機能なAGEフレームワークを提案する。
異方性データセット間ラベル偏差の影響を軽減するため、マルチタスク学習問題として視線回帰を再構成する。
我々のMobileNetベースの軽量モデル一般化は、最先端(SOTA)のUniGaze-Hと競合する性能を実現する。
論文 参考訳(メタデータ) (2026-03-27T19:33:18Z) - MedSPOT: A Workflow-Aware Sequential Grounding Benchmark for Clinical GUI [0.7552557021953206]
MedSPOTは、ワークフローを意識した臨床GUI環境のためのシーケンシャルグラウンドベンチマークである。
ベンチマークは597の注釈付きで216のタスク駆動ビデオで構成されており、各タスクは2から3の相互依存的な接地ステップで構成されている。
また、エッジバイアス、小さなターゲットエラー、予測なし、ミスに近い、ミスなし、ツールバーの混乱など、包括的な障害分類も導入しています。
論文 参考訳(メタデータ) (2026-03-20T14:43:53Z) - Embedding-Aware Feature Discovery: Bridging Latent Representations and Interpretable Features in Event Sequences [5.03287845497428]
産業金融システムは、トランザクション、ユーザアクション、システムログなどの一時的なイベントシーケンスを運用する。
学習した埋め込みと機能ベースのパイプラインのギャップを埋める統合フレームワークであるEmbeding-Aware Feature Discovery (EAFD)を紹介します。
EAFDは2つの相補的基準を用いて、生のイベントシーケンスから直接特徴を発見し、評価し、洗練する。
論文 参考訳(メタデータ) (2026-03-16T14:29:26Z) - SOPRAG: Multi-view Graph Experts Retrieval for Industrial Standard Operating Procedures [15.42553917257021]
SOPRAGは、SOP検索の問題点を解決するために特別に設計された新しいフレームワークである。
SOPRAGは、フラットチャンキングを専門のEntity、Causal、Flowグラフの専門家に置き換える。
SOPRAGは、検索精度と応答性の両方において、強い語彙、密度、グラフベースのRAGベースラインを著しく上回る。
論文 参考訳(メタデータ) (2026-02-02T09:30:43Z) - Labels Matter More Than Models: Quantifying the Benefit of Supervised Time Series Anomaly Detection [56.302586730134806]
時系列異常検出(TSAD)は、しばしばラベル不足によって制約される重要なデータマイニングタスクである。
現在の研究は、主に教師なし時系列異常検出に焦点を当てている。
本稿では,アーキテクチャの複雑さがTSADの最適経路である,という前提に挑戦する。
論文 参考訳(メタデータ) (2025-11-20T08:32:49Z) - Optimizing Multitask Industrial Processes with Predictive Action Guidance [3.5212368599166703]
マルチモーダルトランスフォーマー・フュージョン・アンド・リカレント・ユニット(MMTFRU)ネットワークを導入する。
このシステムは、プロアクティブなオペレータガイダンスを提供し、アセンブリプロセスにおける逸脱を防止する。
提案手法は,産業用Meccanoデータセットと大規模EPIC-Kitchens-55データセットを用いて検証した。
論文 参考訳(メタデータ) (2025-01-09T09:56:33Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。