Fugu-MT 論文翻訳(概要): Metamorphic Testing of Vision-Language Action-Enabled Robots

論文の概要: Metamorphic Testing of Vision-Language Action-Enabled Robots

arxiv url: http://arxiv.org/abs/2602.22579v1
Date: Thu, 26 Feb 2026 03:32:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.509366
Title: Metamorphic Testing of Vision-Language Action-Enabled Robots
Title（参考訳）: 視覚言語行動支援ロボットのメタモルフィックテスト
Authors: Pablo Valle, Sergio Segura, Shaukat Ali, Aitor Arrieta,
Abstract要約: 本稿では,VLA(Vision-Language-Action)モデルにおけるテストオラクル問題を軽減するため,メタモルフィックテスト(MT)を提案する。 5つのVLAモデル、2つの模擬ロボット、4つのロボットタスクを含む実証研究は、MTがテストオラクル問題を効果的に緩和できることを示している。
参考スコア（独自算出の注目度）: 12.232630336816463
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models are multimodal robotic task controllers that, given an instruction and visual inputs, produce a sequence of low-level control actions (or motor commands) enabling a robot to execute the requested task in the physical environment. These systems face the test oracle problem from multiple perspectives. On the one hand, a test oracle must be defined for each instruction prompt, which is a complex and non-generalizable approach. On the other hand, current state-of-the-art oracles typically capture symbolic representations of the world (e.g., robot and object states), enabling the correctness evaluation of a task, but fail to assess other critical aspects, such as the quality with which VLA-enabled robots perform a task. In this paper, we explore whether Metamorphic Testing (MT) can alleviate the test oracle problem in this context. To do so, we propose two metamorphic relation patterns and five metamorphic relations to assess whether changes to the test inputs impact the original trajectory of the VLA-enabled robots. An empirical study involving five VLA models, two simulated robots, and four robotic tasks shows that MT can effectively alleviate the test oracle problem by automatically detecting diverse types of failures, including, but not limited to, uncompleted tasks. More importantly, the proposed MRs are generalizable, making the proposed approach applicable across different VLA models, robots, and tasks, even in the absence of test oracles.
Abstract（参考訳）: ビジョン・ランゲージ・アクション(Vision-Language-Action、VLA)は、ロボットが要求されたタスクを物理的環境で実行できるようにする、低レベル制御アクション(またはモーターコマンド)のシーケンスを生成するマルチモーダル・ロボット・タスク・コントローラである。これらのシステムは、複数の観点からテストオラクル問題に直面している。一方、テストオラクルは命令プロンプトごとに定義されなければならない。一方、現在の最先端のオラクルは、典型的には世界の象徴的な表現(例えばロボットや物体の状態)をキャプチャし、タスクの正確性評価を可能にするが、VLA対応ロボットがタスクを実行する品質などの他の重要な側面を評価できない。本稿では、メタモルフィックテスト(MT)がこの文脈でテストオラクル問題を緩和できるかどうかを考察する。そこで本研究では,テスト入力の変化がVLA対応ロボットの本来の軌道に影響を及ぼすかどうかを評価するために,2つのメタモルフィック関係パターンと5つのメタモルフィック関係パターンを提案する。 5つのVLAモデル、2つのシミュレーションロボット、4つのロボットタスクを含む実証研究は、MTが未完成のタスクを含むさまざまなタイプの障害を自動的に検出することで、テストオラクル問題を効果的に緩和できることを示している。さらに重要なことは、提案されたMRは一般化可能であり、提案されたアプローチは、テストオラクルがなくても、異なるVLAモデル、ロボット、タスクに適用される。

関連論文リスト

Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文参考訳（メタデータ） (2025-11-27T18:50:21Z)
ERR@HRI 2.0 Challenge: Multimodal Detection of Errors and Failures in Human-Robot Conversations [18.151307410451796]
ERR@HRI 2.0 Challengeは、人間とロボットの会話中の会話ロボットの失敗のデータセットを提供する。データセットには、顔、スピーチ、頭の動きを取り入れた16時間の人-ロボットインタラクションが含まれている。参加者はチームを作り、マルチモーダルデータを使用してこれらの障害を検出する機械学習モデルを開発するために招待される。
論文参考訳（メタデータ） (2025-07-17T18:21:45Z)
ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model [21.844214660424175]
ChatVLAは、初期制御熟達後のマルチモーダルデータを段階的に統合するフェーズアライメントトレーニングと、タスク干渉を最小限に抑えるMixture-of-Expertsアーキテクチャを特徴とする、新しいフレームワークである。 ChatVLAは、視覚的問合せデータセット上での競合性能を示し、マルチモーダル理解ベンチマークにおける最先端のビジョン言語アクション(VLA)メソッドを大幅に上回っている。本研究は,ロバストなマルチモーダル理解と効果的なロボット制御を実現するための統合フレームワークの可能性を明らかにするものである。
論文参考訳（メタデータ） (2025-02-20T10:16:18Z)
Embodied Red Teaming for Auditing Robotic Foundation Models [39.23336328126245]
Embodied Red Teaming (ERT)は、言語条件ロボットモデルをテストするための多様で困難な命令を生成する。 ERTは、視覚言語モデル(VLM)による自動化されたレッドチーム化技術を使用して、文脈的に基礎があり、難しい命令を生成する。実験結果から, 最先端の言語調和型ロボットは, ERT生成命令で不安全あるいは不安全に動作することが示唆された。
論文参考訳（メタデータ） (2024-11-27T18:57:26Z)
Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models [81.55156507635286]
脚のついたロボットは、様々な環境をナビゲートし、幅広い障害を克服することができる。現在の学習手法は、人間の監督を伴わずに、予期せぬ状況の長い尾への一般化に苦慮することが多い。本稿では,VLM-Predictive Control (VLM-PC) というシステムを提案する。
論文参考訳（メタデータ） (2024-07-02T21:00:30Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。 LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文参考訳（メタデータ） (2024-02-15T22:01:45Z)
QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [37.952398683031895]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文参考訳（メタデータ） (2023-12-22T06:15:03Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文参考訳（メタデータ） (2023-05-30T09:54:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。