論文の概要: IndustryEQA: Pushing the Frontiers of Embodied Question Answering in Industrial Scenarios
- arxiv url: http://arxiv.org/abs/2505.20640v1
- Date: Tue, 27 May 2025 02:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.356767
- Title: IndustryEQA: Pushing the Frontiers of Embodied Question Answering in Industrial Scenarios
- Title(参考訳): インダストリアルEQA:産業シナリオにおける身体的質問回答のフロンティアを推し進める
- Authors: Yifan Li, Yuhang Chen, Anh Dao, Lichi Li, Zhongyi Cai, Zhen Tan, Tianlong Chen, Yu Kong,
- Abstract要約: 既存のEmbodied Question Answering (EQA)ベンチマークは主に家庭環境に焦点を当てている。
安全クリティカルな倉庫シナリオにおけるエンボディエージェント能力を評価するための最初のベンチマークであるIndustrialEQAを紹介する。
このベンチマークには、機器の安全性、人間の安全性、オブジェクト認識、属性認識、時間的理解、空間的理解の6つのカテゴリをカバーする豊富なアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 46.421243185923814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Embodied Question Answering (EQA) benchmarks primarily focus on household environments, often overlooking safety-critical aspects and reasoning processes pertinent to industrial settings. This drawback limits the evaluation of agent readiness for real-world industrial applications. To bridge this, we introduce IndustryEQA, the first benchmark dedicated to evaluating embodied agent capabilities within safety-critical warehouse scenarios. Built upon the NVIDIA Isaac Sim platform, IndustryEQA provides high-fidelity episodic memory videos featuring diverse industrial assets, dynamic human agents, and carefully designed hazardous situations inspired by real-world safety guidelines. The benchmark includes rich annotations covering six categories: equipment safety, human safety, object recognition, attribute recognition, temporal understanding, and spatial understanding. Besides, it also provides extra reasoning evaluation based on these categories. Specifically, it comprises 971 question-answer pairs generated from small warehouse and 373 pairs from large ones, incorporating scenarios with and without human. We further propose a comprehensive evaluation framework, including various baseline models, to assess their general perception and reasoning abilities in industrial environments. IndustryEQA aims to steer EQA research towards developing more robust, safety-aware, and practically applicable embodied agents for complex industrial environments. Benchmark and codes are available.
- Abstract(参考訳): 既存のEQA(Embodied Question Answering)ベンチマークは主に家庭環境に焦点を当てており、安全上重要な側面や産業環境に関連する推論プロセスを見落としていることが多い。
この欠点は、現実の産業応用におけるエージェント準備性の評価を制限する。
これを埋めるために、安全クリティカルな倉庫シナリオにおけるエンボディエージェント能力を評価するための最初のベンチマークであるIndustrialEQAを紹介します。
NVIDIAのIsaac Simプラットフォーム上に構築されたIndustrialEQAは、さまざまな産業資産、ダイナミックなヒューマンエージェント、そして現実世界の安全ガイドラインにインスパイアされた慎重に設計された有害な状況を含む、高忠実なエピソードメモリビデオを提供する。
このベンチマークには、機器の安全性、人間の安全性、オブジェクト認識、属性認識、時間的理解、空間的理解の6つのカテゴリをカバーする豊富なアノテーションが含まれている。
さらに、これらのカテゴリに基づいた追加の推論評価も提供する。
具体的には、小さな倉庫から発生した991対の質問応答対と、大きな倉庫から生成された733対の質問応答対から成り、シナリオを人間と無関係に組み込む。
さらに,産業環境における一般認識と推論能力を評価するために,様々なベースラインモデルを含む包括的評価フレームワークを提案する。
IndustryEQAは、複雑な産業環境のためのより堅牢で、安全に配慮し、実用的に適用可能なエンボディエージェントを開発することを目的としている。
ベンチマークとコードも利用可能だ。
関連論文リスト
- Understanding and Mitigating Risks of Generative AI in Financial Services [22.673239064487667]
我々は、金融サービスドメインに特有のAIコンテンツ安全性の考察を強調し、関連するAIコンテンツリスク分類を概説することを目指している。
我々は,既存のオープンソース技術ガードレールソリューションがこの分類をレッドチーム活動を通じて収集されたデータに基づいて評価することによってどのようにカバーするかを評価する。
論文 参考訳(メタデータ) (2025-04-25T16:55:51Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - IPAD: Industrial Process Anomaly Detection Dataset [71.39058003212614]
ビデオ異常検出(VAD)は,ビデオフレーム内の異常を認識することを目的とした課題である。
本稿では,産業シナリオにおけるVADに特化して設計された新しいデータセットIPADを提案する。
このデータセットは16の異なる産業用デバイスをカバーし、合成ビデオと実世界のビデオの両方を6時間以上保存している。
論文 参考訳(メタデータ) (2024-04-23T13:38:01Z) - Modeling and mitigation of occupational safety risks in dynamic
industrial environments [0.0]
本稿では,データ駆動方式で安全リスクを連続的かつ定量的に評価する手法を提案する。
オンライン形式で安全データからこのモデルを校正するために、完全なベイズ的アプローチが開発されている。
提案したモデルは自動意思決定に利用することができる。
論文 参考訳(メタデータ) (2022-05-02T13:04:25Z) - Sustainability Through Cognition Aware Safety Systems -- Next Level
Human-Machine-Interaction [1.847374743273972]
産業安全は、生産シナリオの間、人間、機械、環境の物理的整合性を扱う。
認知意識安全システム(CASS)の概念は、人間の負荷、ストレス、注意に関するAIベースの推論とAIベースのアクションの選択を統合して、安全停止のトリガーを避けることである。
論文 参考訳(メタデータ) (2021-10-13T19:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。