論文の概要: Are Open-Vocabulary Models Ready for Detection of MEP Elements on Construction Sites
- arxiv url: http://arxiv.org/abs/2501.09267v1
- Date: Thu, 16 Jan 2025 03:34:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:09:28.024814
- Title: Are Open-Vocabulary Models Ready for Detection of MEP Elements on Construction Sites
- Title(参考訳): 建設現場におけるMEP要素検出のための開語彙モデル
- Authors: Abdalwhab Abdalwhab, Ali Imran, Sina Heydarian, Ivanka Iordanova, David St-Onge,
- Abstract要約: 高度な視覚システムを備えた地上ロボットは、機械、電気、配管(MEP)システムの監視などのタスクを自動化することができる。
本研究は, 細調整, 軽量, クローズドセットオブジェクト検出器と比較して, オープン語彙型視覚言語モデルの適用性を評価する。
- 参考スコア(独自算出の注目度): 3.053513975262358
- License:
- Abstract: The construction industry has long explored robotics and computer vision, yet their deployment on construction sites remains very limited. These technologies have the potential to revolutionize traditional workflows by enhancing accuracy, efficiency, and safety in construction management. Ground robots equipped with advanced vision systems could automate tasks such as monitoring mechanical, electrical, and plumbing (MEP) systems. The present research evaluates the applicability of open-vocabulary vision-language models compared to fine-tuned, lightweight, closed-set object detectors for detecting MEP components using a mobile ground robotic platform. A dataset collected with cameras mounted on a ground robot was manually annotated and analyzed to compare model performance. The results demonstrate that, despite the versatility of vision-language models, fine-tuned lightweight models still largely outperform them in specialized environments and for domain-specific tasks.
- Abstract(参考訳): 建設産業は長い間ロボット工学とコンピュータビジョンを探求してきたが、建設現場への展開は限られている。
これらの技術は、建設管理における正確性、効率、安全性を高めることによって、従来のワークフローに革命をもたらす可能性がある。
高度な視覚システムを備えた地上ロボットは、機械、電気、配管(MEP)システムの監視などのタスクを自動化することができる。
本研究は, 移動地ロボットプラットフォームを用いたMEPコンポーネント検出のための細調整, 軽量, クローズドセットオブジェクト検出器と比較して, オープンボキャブラリ視覚言語モデルの適用性を評価する。
地上ロボットに搭載されたカメラで収集したデータセットを手動でアノテートし、モデル性能の比較を行った。
その結果、視覚言語モデルの汎用性にもかかわらず、細調整された軽量モデルは、特殊環境やドメイン固有のタスクにおいて、それらよりもはるかに優れていたことが示される。
関連論文リスト
- Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [70.93622520400385]
本稿では,VLAに基づくロボットシステムのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する,標的のない位置認識型攻撃目標を提案する。
また、カメラの視野内に小さなカラフルなパッチを配置し、デジタル環境と物理環境の両方で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - On the Exploration of LM-Based Soft Modular Robot Design [26.847859137653487]
大規模言語モデル(LLM)は、現実世界の知識をモデル化する上で有望な能力を示した。
本稿では,LLMを用いてソフトモジュールロボットの設計を支援する可能性について検討する。
本モデルは,一方向・二方向・階段移動機能を有するソフトモジュールロボットの設計において,優れた評価性能を発揮する。
論文 参考訳(メタデータ) (2024-11-01T04:03:05Z) - Tiny Robotics Dataset and Benchmark for Continual Object Detection [6.4036245876073234]
本研究は,小型ロボットプラットフォームにおける物体検出システムの連続学習能力を評価するための新しいベンチマークを導入する。
i)TiROD(Tiny Robotics Object Detection)は、小さな移動ロボットを用いて収集された包括的なデータセットで、さまざまなドメインやクラスにわたるオブジェクト検出の適応性をテストするように設計されている。
論文 参考訳(メタデータ) (2024-09-24T16:21:27Z) - Foundation Models for Autonomous Robots in Unstructured Environments [15.517532442044962]
この研究は、ロボットと非構造環境の2つの分野における基礎モデルの応用を体系的にレビューした。
LLMの言語能力は、人間とロボットの相互作用の知覚を改善するために、他の特徴よりも利用されてきた。
LLMの使用は、プロジェクトの管理と建設における安全性、災害管理における自然災害検出により多くの応用を実証した。
論文 参考訳(メタデータ) (2024-07-19T13:26:52Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language
Models [4.4173427917548524]
MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。
我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
論文 参考訳(メタデータ) (2023-10-16T09:30:45Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。