Fugu-MT 論文翻訳(概要): Action Hallucination in Generative Visual-Language-Action Models

論文の概要: Action Hallucination in Generative Visual-Language-Action Models

arxiv url: http://arxiv.org/abs/2602.06339v1
Date: Fri, 06 Feb 2026 03:05:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.205733
Title: Action Hallucination in Generative Visual-Language-Action Models
Title（参考訳）: 生成的視覚言語行動モデルにおける行動幻覚
Authors: Harold Soh, Eugene Lim,
Abstract要約: Vision-Language-Actionモデルは、手作業で設計されたプランナーをエンドツーエンドの生成アクションモデルに置き換えている。身体的制約に違反する行動幻覚とその計画レベルの失敗への拡張を分析する。幻覚は、実現可能なロボット行動と一般的なモデルアーキテクチャの間の構造的ミスマッチから生じることが多いことを示す。
参考スコア（独自算出の注目度）: 10.389360557790694
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robot Foundation Models such as Vision-Language-Action models are rapidly reshaping how robot policies are trained and deployed, replacing hand-designed planners with end-to-end generative action models. While these systems demonstrate impressive generalization, it remains unclear whether they fundamentally resolve the long-standing challenges of robotics. We address this question by analyzing action hallucinations that violate physical constraints and their extension to plan-level failures. Focusing on latent-variable generative policies, we show that hallucinations often arise from structural mismatches between feasible robot behavior and common model architectures. We study three such barriers -- topological, precision, and horizon -- and show how they impose unavoidable tradeoffs. Our analysis provides mechanistic explanations for reported empirical failures of generative robot policies and suggests principled directions for improving reliability and trustworthiness, without abandoning their expressive power.
Abstract（参考訳）: Vision-Language-Action Modelのようなロボットファンデーションモデルは、手作業で設計したプランナーをエンドツーエンドの生成アクションモデルに置き換え、ロボットポリシーのトレーニングとデプロイ方法を急速に変えつつある。これらのシステムは目覚ましい一般化を示しているが、ロボット工学の長年の課題を根本的に解決するかどうかは不明だ。本稿では,身体的制約に反する行動幻覚と,計画レベルの失敗への拡張を分析することで,この問題に対処する。潜在変数生成ポリシーに注目すると、幻覚は、実現可能なロボット行動と一般的なモデルアーキテクチャの間の構造的ミスマッチから生じることがしばしば示される。我々は、トポロジカル、精度、地平線という3つの障壁を調査し、避けられないトレードオフを課す方法を示している。本分析は,生成ロボット政策の実証的失敗を報告した機械的説明を提供するとともに,その表現力を捨てることなく,信頼性と信頼性を向上させるための原則的方向性を提案する。

関連論文リスト

Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文参考訳（メタデータ） (2025-11-27T18:50:21Z)
From Mystery to Mastery: Failure Diagnosis for Improving Manipulation Policies [35.18739716338974]
本稿では,臨界故障モード(FM)を自動的に識別するシステムであるロボットマニピュレーション診断(RoboMD)を提案する。事前訓練された操作ポリシーにおける潜在的なFMの膨大な空間を考慮すると、深層強化学習(deep reinforcement learning, ディープRL)を活用してこれらのFMを探索し、発見する。非構造環境における未知障害の診断におけるRoboMDの有効性を実証する。
論文参考訳（メタデータ） (2024-12-03T20:34:51Z)
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文参考訳（メタデータ） (2024-11-18T01:52:20Z)
GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文参考訳（メタデータ） (2024-10-09T02:00:37Z)
Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文参考訳（メタデータ） (2023-08-30T17:59:05Z)
Towards a Causal Probabilistic Framework for Prediction, Action-Selection & Explanations for Robot Block-Stacking Tasks [4.244706520140677]
因果モデル(英: Causal model)は、ロボットの環境との相互作用を管理する因果関係の形式的知識を符号化する原則的な枠組みを提供する。本研究では,物理シミュレーション機能を構造因果モデルに組み込むことで,ロボットがブロックスタッキングタスクの現況を認識・評価できる新しい因果確率的枠組みを提案する。
論文参考訳（メタデータ） (2023-08-11T15:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。