論文の概要: A Multimodal Manufacturing Safety Chatbot: Knowledge Base Design, Benchmark Development, and Evaluation of Multiple RAG Approaches
- arxiv url: http://arxiv.org/abs/2511.11847v1
- Date: Fri, 14 Nov 2025 20:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.340137
- Title: A Multimodal Manufacturing Safety Chatbot: Knowledge Base Design, Benchmark Development, and Evaluation of Multiple RAG Approaches
- Title(参考訳): マルチモーダル製造安全チャットボット:知識ベース設計、ベンチマーク開発および複数RAGアプローチの評価
- Authors: Ryan Singh, Austin Hamilton, Amanda White, Michael Wise, Ibrahim Yousif, Arthur Carvalho, Zhe Shan, Reza Abrisham Baf, Mohammad Mayyas, Lora A. Cavuoto, Fadel M. Megahed,
- Abstract要約: 次世代安全訓練システムには,高精度,低レイテンシ,低コストの3つの必須要件がある。
これらの設計要件を満たす大規模言語モデルを用いたマルチモーダルチャットボットを提案する。
最高設定は86.66%、平均レイテンシは10.04秒、クエリ毎の平均コストは0.005ドルだった。
- 参考スコア(独自算出の注目度): 3.2642182031768487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring worker safety remains a critical challenge in modern manufacturing environments. Industry 5.0 reorients the prevailing manufacturing paradigm toward more human-centric operations. Using a design science research methodology, we identify three essential requirements for next-generation safety training systems: high accuracy, low latency, and low cost. We introduce a multimodal chatbot powered by large language models that meets these design requirements. The chatbot uses retrieval-augmented generation to ground its responses in curated regulatory and technical documentation. To evaluate our solution, we developed a domain-specific benchmark of expert-validated question and answer pairs for three representative machines: a Bridgeport manual mill, a Haas TL-1 CNC lathe, and a Universal Robots UR5e collaborative robot. We tested 24 RAG configurations using a full-factorial design and assessed them with automated evaluations of correctness, latency, and cost. Our top 2 configurations were then evaluated by ten industry experts and academic researchers. Our results show that retrieval strategy and model configuration have a significant impact on performance. The top configuration (selected for chatbot deployment) achieved an accuracy of 86.66%, an average latency of 10.04 seconds, and an average cost of $0.005 per query. Overall, our work provides three contributions: an open-source, domain-grounded safety training chatbot; a validated benchmark for evaluating AI-assisted safety instruction; and a systematic methodology for designing and assessing AI-enabled instructional and immersive safety training systems for Industry 5.0 environments.
- Abstract(参考訳): 労働者の安全を確保することは、現代の製造環境において重要な課題である。
業界 5.0 は、より人間中心の事業に向けて、一般的な製造パラダイムを再編成する。
設計科学研究手法を用いて,次世代安全訓練システムの基本要件として,高精度,低レイテンシ,低コストの3つを同定する。
これらの設計要件を満たす大規模言語モデルを用いたマルチモーダルチャットボットを提案する。
このチャットボットは、検索の強化された世代を使って、その応答を規制と技術ドキュメントのキュレーションで根拠づける。
提案手法を評価するために,Bridgeportマニュアルミル,Haas TL-1 CNCラテ,Universal Robots UR5e協調ロボットの3つの代表的なマシンに対して,専門家が検証した質問と回答のペアのドメイン固有ベンチマークを開発した。
フルファクター設計を用いて24のRAG構成をテストし、正確性、レイテンシ、コストを自動評価して評価した。
トップ2の構成は10の業界専門家と学術研究者によって評価されました。
この結果から,検索戦略とモデル構成が性能に大きな影響を及ぼすことが示された。
トップ設定(チャットボットのデプロイメントに選択)は86.66%の精度、平均レイテンシは10.04秒、クエリ毎の平均コストは0.005ドルに達した。
全体として、我々の研究は3つのコントリビューションを提供している。オープンソースのドメインベース安全トレーニングチャットボット、AI支援安全指導を評価するための検証済みベンチマーク、産業用5.0環境のためのAI対応教育および没入型安全訓練システムの設計と評価のための体系的な方法論である。
関連論文リスト
- Investigating the Potential of Large Language Model-Based Router Multi-Agent Architectures for Foundation Design Automation: A Task Classification and Expert Selection Study [0.0]
シングルエージェント処理、マルチエージェントデザイナ-チェッカーアーキテクチャ、ルータベースのエキスパートセレクションの3つのアプローチが評価された。
性能評価はDeepSeek R1、ChatGPT 4 Turbo、Grok 3、Gemini 2.5 Proといったベースラインモデルを利用した。
その結果、ルータベースのマルチエージェントシステムは、プロのドキュメント標準を維持しつつ、基礎設計の自動化に最適なものとなった。
論文 参考訳(メタデータ) (2025-06-13T23:45:24Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Runtime Verification and Field-based Testing for ROS-based Robotic Systems [8.675312581079039]
ROSベースのシステムを設計して実行時の検証とフィールドベースのテストを可能にするための明確なガイダンスは存在しない。
本稿では、開発者と品質保証(QA)チームが現場でロボットを開発し、検証し、テストするためのガイドラインを提供することで、このギャップを埋めることを目的とする。
論文 参考訳(メタデータ) (2024-04-17T15:52:29Z) - Comparing Software Developers with ChatGPT: An Empirical Investigation [0.0]
本稿では,ChatGPTのようなソフトウェア技術者やAIシステムのパフォーマンスを,さまざまな評価指標で比較した実証的研究を行う。
この論文は、さまざまな評価基準を考慮して、ソフトウェアエンジニアとAIベースのソリューションの包括的な比較が、人間と機械のコラボレーションを促進する上で重要であることを示唆している。
論文 参考訳(メタデータ) (2023-05-19T17:25:54Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - RobustART: Benchmarking Robustness on Architecture Design and Training
Techniques [170.3297213957074]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
アーキテクチャ設計とトレーニングのテクニックが堅牢性にどのように影響するかに関する包括的な研究はない。
本稿では,ImageNet上での包括性調査ベンチマークを提案する。
論文 参考訳(メタデータ) (2021-09-11T08:01:14Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。