Fugu-MT 論文翻訳(概要): Vision Language Model-based Testing of Industrial Autonomous Mobile Robots

論文の概要: Vision Language Model-based Testing of Industrial Autonomous Mobile Robots

arxiv url: http://arxiv.org/abs/2508.02338v1
Date: Mon, 04 Aug 2025 12:20:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-12 13:47:38.789142
Title: Vision Language Model-based Testing of Industrial Autonomous Mobile Robots
Title（参考訳）: 産業用自律移動ロボットの視覚言語モデルによるテスト
Authors: Jiahui Wu, Chengjie Lu, Aitor Arrieta, Shaukat Ali, Thomas Peyrucain,
Abstract要約: PALロボティクスがスペインで開発した産業用AMRに対するビジョン言語モデル(VLM)に基づくテスト手法を提案する。機能と安全性の要件に基づいて、RVSGはVLMを使用して、これらの要件に違反した多様な人間の振る舞いを生成する。その結果, RVSGはベースラインと比較して, 要求違反シナリオを効果的に生成できることがわかった。
参考スコア（独自算出の注目度）: 10.434281898189067
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous Mobile Robots (AMRs) are deployed in diverse environments (e.g., warehouses, retail spaces, and offices), where they work alongside humans. Given that human behavior can be unpredictable and that AMRs may not have been trained to handle all possible unknown and uncertain behaviors, it is important to test AMRs under a wide range of human interactions to ensure their safe behavior. Moreover, testing in real environments with actual AMRs and humans is often costly, impractical, and potentially hazardous (e.g., it could result in human injury). To this end, we propose a Vision Language Model (VLM)-based testing approach (RVSG) for industrial AMRs developed by PAL Robotics in Spain. Based on the functional and safety requirements, RVSG uses the VLM to generate diverse human behaviors that violate these requirements. We evaluated RVSG with several requirements and navigation routes in a simulator using the latest AMR from PAL Robotics. Our results show that, compared with the baseline, RVSG can effectively generate requirement-violating scenarios. Moreover, RVSG-generated scenarios increase variability in robot behavior, thereby helping reveal their uncertain behaviors.
Abstract（参考訳）: 自律移動ロボット(AMR)は、さまざまな環境(倉庫、小売スペース、オフィスなど)に展開され、人間と一緒に動作する。ヒトの行動は予測不可能であり、AMRはあらゆる可能性のある未知の、不確実な行動を扱うために訓練されていない可能性があることを考慮すれば、AMRを広範囲にわたるヒトの相互作用の下でテストし、彼らの安全な行動を保証することが重要である。さらに、実際のAMRと人間の実際の環境でのテストは、しばしばコストがかかり、実用的でなく、潜在的に危険である(例えば、人間の怪我を引き起こす可能性がある)。そこで我々はスペインでPAL Robotics社が開発した産業用AMRのためのビジョン言語モデル(VLM)に基づくテスト手法を提案する。機能と安全性の要件に基づいて、RVSGはVLMを使用して、これらの要件に違反した多様な人間の振る舞いを生成する。 PAL Roboticsの最新のAMRを用いたシミュレータにおいて,RVSGをいくつかの要件とナビゲーション経路で評価した。その結果, RVSGはベースラインと比較して, 要求違反シナリオを効果的に生成できることがわかった。さらに, RVSG が生成するシナリオは, ロボットの動作の多様性を増大させ, その不確実な動作を明らかにするのに役立つ。

関連論文リスト

Recognizing Actions from Robotic View for Natural Human-Robot Interaction [52.00935005918032]
自然人-ロボットインタラクション(Natural Human-Robot Interaction, N-HRI)は、ロボット自身が動いているか静止しているかに関わらず、ロボットが様々な距離と状態で人間の行動を認識することを要求する。 N-HRIの既存のベンチマークは、限られたデータ、モダリティ、タスクカテゴリ、主題や環境の多様性のために、N-HRIのユニークな複雑さに対処できない。モバイルサービスロボットで広く使われている知覚中心ロボットビューのための大規模データセット(Action from Robotic View)を紹介する。
論文参考訳（メタデータ） (2025-07-30T09:48:34Z)
ORV: 4D Occupancy-centric Robot Video Generation [33.360345403049685]
遠隔操作を通じて現実世界のロボットシミュレーションデータを取得することは、時間と労力のかかることで有名だ。 ORVは,4次元のセマンティック・コンカレンシー・シーケンスをきめ細かな表現として利用した,作業中心のロボットビデオ生成フレームワークである。 ORVは、占有率に基づく表現を活用することにより、時間的一貫性と正確な制御性を確保しつつ、シミュレーションデータをフォトリアリスティックなロボットビデオにシームレスに変換することができる。
論文参考訳（メタデータ） (2025-06-03T17:00:32Z)
REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。 ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文参考訳（メタデータ） (2025-03-28T03:51:40Z)
Multi-Task Interactive Robot Fleet Learning with Visual World Models [25.001148860168477]
Sirius-Fleetはマルチタスク対話型ロボットフリートラーニングフレームワークである。デプロイ中のロボットのパフォーマンスを監視し、必要な時にロボットの動作を修正するよう人間に要求する。ロボットの自律性が向上するにつれて、異常予測器は予測基準に自動的に適応する。
論文参考訳（メタデータ） (2024-10-30T04:49:39Z)
GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。 GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。 GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文参考訳（メタデータ） (2024-07-15T17:40:46Z)
Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文参考訳（メタデータ） (2024-07-02T21:00:30Z)
Theory of Mind abilities of Large Language Models in Human-Robot Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文参考訳（メタデータ） (2024-01-10T18:09:36Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
Error-Aware Policy Learning: Zero-Shot Generalization in Partially Observable Dynamic Environments [18.8481771211768]
新しい環境に適応できる政策を開発することで、このようなシム・トゥ・リアル問題に取り組むための新しいアプローチを紹介します。私たちのアプローチの鍵は、トレーニング中に観察できない要因の影響を明示的に認識するエラー認識ポリシー(EAP)です。ヒップトルク補助装置の訓練されたEAPは, 生体力学的特性の異なる異なる人体エージェントに転送可能であることを示す。
論文参考訳（メタデータ） (2021-03-13T15:36:44Z)
Smooth Exploration for Robotic Reinforcement Learning [11.215352918313577]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界との対話からスキルを学ぶことを可能にする。実際には、Deep RLで使用される非構造的なステップベースの探索は、実際のロボットにジャーキーな動きパターンをもたらす。本稿では、状態依存探索(SDE)を現在のDeep RLアルゴリズムに適応させることにより、これらの問題に対処する。
論文参考訳（メタデータ） (2020-05-12T12:28:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。