Fugu-MT 論文翻訳(概要): Are Open-Vocabulary Models Ready for Detection of MEP Elements on Construction Sites

論文の概要: Are Open-Vocabulary Models Ready for Detection of MEP Elements on Construction Sites

arxiv url: http://arxiv.org/abs/2501.09267v1
Date: Thu, 16 Jan 2025 03:34:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-17 16:36:32.18292
Title: Are Open-Vocabulary Models Ready for Detection of MEP Elements on Construction Sites
Title（参考訳）: 建設現場におけるMEP要素検出のための開語彙モデル
Authors: Abdalwhab Abdalwhab, Ali Imran, Sina Heydarian, Ivanka Iordanova, David St-Onge,
Abstract要約: 高度な視覚システムを備えた地上ロボットは、機械、電気、配管(MEP)システムの監視などのタスクを自動化することができる。本研究は, 細調整, 軽量, クローズドセットオブジェクト検出器と比較して, オープン語彙型視覚言語モデルの適用性を評価する。
参考スコア（独自算出の注目度）: 3.053513975262358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The construction industry has long explored robotics and computer vision, yet their deployment on construction sites remains very limited. These technologies have the potential to revolutionize traditional workflows by enhancing accuracy, efficiency, and safety in construction management. Ground robots equipped with advanced vision systems could automate tasks such as monitoring mechanical, electrical, and plumbing (MEP) systems. The present research evaluates the applicability of open-vocabulary vision-language models compared to fine-tuned, lightweight, closed-set object detectors for detecting MEP components using a mobile ground robotic platform. A dataset collected with cameras mounted on a ground robot was manually annotated and analyzed to compare model performance. The results demonstrate that, despite the versatility of vision-language models, fine-tuned lightweight models still largely outperform them in specialized environments and for domain-specific tasks.
Abstract（参考訳）: 建設産業は長い間ロボット工学とコンピュータビジョンを探求してきたが、建設現場への展開は限られている。これらの技術は、建設管理における正確性、効率、安全性を高めることによって、従来のワークフローに革命をもたらす可能性がある。高度な視覚システムを備えた地上ロボットは、機械、電気、配管(MEP)システムの監視などのタスクを自動化することができる。本研究は, 移動地ロボットプラットフォームを用いたMEPコンポーネント検出のための細調整, 軽量, クローズドセットオブジェクト検出器と比較して, オープンボキャブラリ視覚言語モデルの適用性を評価する。地上ロボットに搭載されたカメラで収集したデータセットを手動でアノテートし、モデル性能の比較を行った。その結果、視覚言語モデルの汎用性にもかかわらず、細調整された軽量モデルは、特殊環境やドメイン固有のタスクにおいて、それらよりもはるかに優れていたことが示される。

関連論文リスト

Perspective on Utilizing Foundation Models for Laboratory Automation in Materials Research [6.793869699081147]
本総説では, 材料・化学分野における実験室の自動化を推し進める基礎モデルの可能性について考察する。実験計画とデータ分析のための認知機能と、ハードウェア操作のための物理的機能である。近年の進歩は、大規模言語モデル(LLM)とマルチモーダルロボットシステムを用いて、複雑でダイナミックな実験室タスクを処理できることを実証している。
論文参考訳（メタデータ） (2025-06-14T02:22:28Z)
Is Single-View Mesh Reconstruction Ready for Robotics? [63.29645501232935]
本稿では,ロボット操作におけるディジタル双対環境構築のための単一視点メッシュ再構成モデルについて述べる。ロボット工学の文脈における3次元再構成のベンチマーク基準を確立する。コンピュータビジョンベンチマークの成功にもかかわらず、既存のアプローチはロボティクス固有の要件を満たしていない。
論文参考訳（メタデータ） (2025-05-23T14:35:56Z)
Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文参考訳（メタデータ） (2025-05-14T15:28:43Z)
Multi-Agent Systems for Robotic Autonomy with LLMs [7.113794752528622]
このフレームワークには、タスクアナリスト、ロボットデザイナ、強化学習デザイナの3つのコアエージェントが含まれている。提案システムでは,適切なタスク入力が提供された場合に,制御戦略で実現可能なロボットを設計できることが実証された。
論文参考訳（メタデータ） (2025-05-09T03:52:37Z)
M2R2: MulitModal Robotic Representation for Temporal Action Segmentation [9.64001633229156]
複数のTASモデルにまたがる学習機能の再利用を可能にする新しい事前学習戦略を導入する。提案手法は,REASSEMBLEデータセット上での最先端性能を実現し,既存のロボットアクションセグメンテーションモデルよりも46.6%向上した。
論文参考訳（メタデータ） (2025-04-25T19:36:17Z)
An LLM-enabled Multi-Agent Autonomous Mechatronics Design Framework [49.633199780510864]
本研究は, 機械設計, 最適化, エレクトロニクス, ソフトウェア工学の専門知識を統合した多エージェント自律メカトロニクス設計フレームワークを提案する。このフレームワークは、言語駆動のワークフローを通じて運用され、構造化された人間のフィードバックを組み込んで、現実世界の制約下での堅牢なパフォーマンスを保証する。完全に機能する自律型容器は、最適化された推進、コスト効率の高い電子機器、高度な制御を備えていた。
論文参考訳（メタデータ） (2025-04-20T16:57:45Z)
On the Exploration of LM-Based Soft Modular Robot Design [26.847859137653487]
大規模言語モデル(LLM)は、現実世界の知識をモデル化する上で有望な能力を示した。本稿では,LLMを用いてソフトモジュールロボットの設計を支援する可能性について検討する。本モデルは,一方向・二方向・階段移動機能を有するソフトモジュールロボットの設計において,優れた評価性能を発揮する。
論文参考訳（メタデータ） (2024-11-01T04:03:05Z)
Tiny Robotics Dataset and Benchmark for Continual Object Detection [6.4036245876073234]
本研究は,小型ロボットプラットフォームにおける物体検出システムの連続学習能力を評価するための新しいベンチマークを導入する。 i)TiROD(Tiny Robotics Object Detection)は、小さな移動ロボットを用いて収集された包括的なデータセットで、さまざまなドメインやクラスにわたるオブジェクト検出の適応性をテストするように設計されている。
論文参考訳（メタデータ） (2024-09-24T16:21:27Z)
Foundation Models for Autonomous Robots in Unstructured Environments [15.517532442044962]
この研究は、ロボットと非構造環境の2つの分野における基礎モデルの応用を体系的にレビューした。 LLMの言語能力は、人間とロボットの相互作用の知覚を改善するために、他の特徴よりも利用されてきた。 LLMの使用は、プロジェクトの管理と建設における安全性、災害管理における自然災害検出により多くの応用を実証した。
論文参考訳（メタデータ） (2024-07-19T13:26:52Z)
LAECIPS: Large Vision Model Assisted Adaptive Edge-Cloud Collaboration for IoT-based Embodied Intelligence System [22.779285672925425]
エボディード・インテリジェンス(Embodied Intelligence, EI)は、生産システムを動的店舗のフロア環境内で柔軟に知覚し、推論し、適応し、操作することを可能にする。大規模ビジョンモデルを用いたIoTベースのインボディードインテリジェンスシステムのための適応エッジクラウドコラボレーションフレームワークであるLAECIPSを提案する。 LAECIPSはクラウド上の大きなビジョンモデルをエッジ上の軽量モデルから切り離し、プラグアンドプレイモデルの適応と継続的な学習を可能にする。
論文参考訳（メタデータ） (2024-04-16T12:12:06Z)
AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文参考訳（メタデータ） (2024-01-23T18:45:54Z)
Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文参考訳（メタデータ） (2023-12-14T10:02:55Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models [4.4173427917548524]
MLLM(Multimodal Large Language Models)は、様々な下流タスクのための新しいバックボーンとして登場した。我々は、ARMBenchチャレンジにおける視覚的認識タスクに対処するため、BEiT-3バックボーンを備えたRoboLLMフレームワークを紹介した。
論文参考訳（メタデータ） (2023-10-16T09:30:45Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文参考訳（メタデータ） (2022-12-13T18:55:15Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。