論文の概要: AI-Powered Immersive Assistance for Interactive Task Execution in Industrial Environments
- arxiv url: http://arxiv.org/abs/2407.09147v1
- Date: Fri, 12 Jul 2024 10:30:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:45:53.031501
- Title: AI-Powered Immersive Assistance for Interactive Task Execution in Industrial Environments
- Title(参考訳): 産業環境における対話型タスク実行のためのAIによる没入支援
- Authors: Tomislav Duricic, Peter Müllner, Nicole Weidinger, Neven ElSayed, Dominik Kowald, Eduardo Veas,
- Abstract要約: 我々は,産業環境における複雑なタスクの実行を支援するAIを活用した没入型支援システムを実演する。
我々のシステムは、ジュースミキサーのセットアップに似たVR環境を活用している。
このデモでは、私たちのAIアシスタントが、認知負荷を減らし、生産性を高め、産業環境の安全性を高める可能性を示しています。
- 参考スコア(独自算出の注目度): 0.11545092788508222
- License:
- Abstract: Many industrial sectors rely on well-trained employees that are able to operate complex machinery. In this work, we demonstrate an AI-powered immersive assistance system that supports users in performing complex tasks in industrial environments. Specifically, our system leverages a VR environment that resembles a juice mixer setup. This digital twin of a physical setup simulates complex industrial machinery used to mix preparations or liquids (e.g., similar to the pharmaceutical industry) and includes various containers, sensors, pumps, and flow controllers. This setup demonstrates our system's capabilities in a controlled environment while acting as a proof-of-concept for broader industrial applications. The core components of our multimodal AI assistant are a large language model and a speech-to-text model that process a video and audio recording of an expert performing the task in a VR environment. The video and speech input extracted from the expert's video enables it to provide step-by-step guidance to support users in executing complex tasks. This demonstration showcases the potential of our AI-powered assistant to reduce cognitive load, increase productivity, and enhance safety in industrial environments.
- Abstract(参考訳): 多くの産業部門は、複雑な機械を運用できるよく訓練された従業員に依存している。
本研究では,産業環境における複雑なタスクの実行を支援するAIを活用した没入型支援システムについて紹介する。
具体的には、ジュースミキサーのセットアップに似たVR環境を活用している。
このデジタルツインは、準備や液体(例えば製薬業界に似た)を混ぜる複雑な産業機械をシミュレートし、様々な容器、センサー、ポンプ、フローコントローラを含む。
このセットアップは、より広範な産業アプリケーションのための概念実証として機能しながら、制御された環境でのシステムの能力を実証する。
私たちのマルチモーダルAIアシスタントの中核となるコンポーネントは、大きな言語モデルと、VR環境でタスクを実行する専門家のビデオと音声の記録を処理する音声テキストモデルです。
専門家のビデオから抽出されたビデオと音声は、複雑なタスクを実行するユーザを支援するためのステップバイステップのガイダンスを提供する。
このデモでは、私たちのAIアシスタントが、認知負荷を減らし、生産性を高め、産業環境の安全性を高める可能性を示しています。
関連論文リスト
- RAMPA: Robotic Augmented Reality for Machine Programming and Automation [4.963604518596734]
本稿では,RAMPA(Robotic Augmented Reality for Machine Programming)を紹介する。
RAMPAは最先端のARヘッドセット、例えばMeta Quest 3の能力を利用するシステムである。
提案手法は,ユーザの物理的環境内で直接,スキルデモのその場でのデータ記録,可視化,微調整を可能にする。
論文 参考訳(メタデータ) (2024-10-17T10:21:28Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Towards Building AI-CPS with NVIDIA Isaac Sim: An Industrial Benchmark
and Case Study for Robotics Manipulation [18.392301524812645]
代表的サイバー物理システム(CPS)として、ロボットマニピュレータは様々な学術研究や産業プロセスで広く採用されている。
ロボット操作の最近の研究は、適応性と性能を向上させるために人工知能(AI)アプローチをコントローラとして採用し始めている。
本稿では,ロボット操作のための公開産業ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-31T18:21:45Z) - Virtual Reality via Object Poses and Active Learning: Realizing
Telepresence Robots with Aerial Manipulation Capabilities [39.29763956979895]
本稿では,動的・非構造環境下での空中操作を進展させる新しいテレプレゼンスシステムを提案する。
提案システムは触覚デバイスだけでなく、ロボットのワークスペースのリアルタイム3Dディスプレイを提供する仮想現実(VR)インターフェースも備えている。
DLRケーブル・サスペンド・エアリアルマニピュレータ(SAM)によるピック・アンド・プレイス、フォース・アプリケーション、ペグ・イン・ホールの70以上の堅牢な実行を示す。
論文 参考訳(メタデータ) (2022-10-18T08:42:30Z) - COCOI: Contact-aware Online Context Inference for Generalizable
Non-planar Pushing [87.7257446869134]
一般的なコンタクトリッチな操作問題は、ロボット工学における長年の課題である。
深層強化学習は、ロボット操作タスクの解決に大きな可能性を示している。
動的プロパティのコンテキスト埋め込みをオンラインにエンコードする深層RL法であるCOCOIを提案する。
論文 参考訳(メタデータ) (2020-11-23T08:20:21Z) - Validate and Enable Machine Learning in Industrial AI [47.20869253934116]
産業用AIは、より効率的な将来の産業用制御システムを約束する。
Petuum Optimumシステムは、AIモデルの作成とテストの課題を示す例として使用される。
論文 参考訳(メタデータ) (2020-10-30T20:33:05Z) - SAPIEN: A SimulAted Part-based Interactive ENvironment [77.4739790629284]
SAPIENは現実的で物理に富んだシミュレートされた環境であり、音声オブジェクトのための大規模なセットをホストしている。
部品検出と動作特性認識のための最先端の視覚アルゴリズムの評価を行い,ロボットインタラクションタスクの実証を行った。
論文 参考訳(メタデータ) (2020-03-19T00:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。