論文の概要: Action Hallucination in Generative Visual-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.06339v1
- Date: Fri, 06 Feb 2026 03:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.205733
- Title: Action Hallucination in Generative Visual-Language-Action Models
- Title(参考訳): 生成的視覚言語行動モデルにおける行動幻覚
- Authors: Harold Soh, Eugene Lim,
- Abstract要約: Vision-Language-Actionモデルは、手作業で設計されたプランナーをエンドツーエンドの生成アクションモデルに置き換えている。
身体的制約に違反する行動幻覚とその計画レベルの失敗への拡張を分析する。
幻覚は、実現可能なロボット行動と一般的なモデルアーキテクチャの間の構造的ミスマッチから生じることが多いことを示す。
- 参考スコア(独自算出の注目度): 10.389360557790694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot Foundation Models such as Vision-Language-Action models are rapidly reshaping how robot policies are trained and deployed, replacing hand-designed planners with end-to-end generative action models. While these systems demonstrate impressive generalization, it remains unclear whether they fundamentally resolve the long-standing challenges of robotics. We address this question by analyzing action hallucinations that violate physical constraints and their extension to plan-level failures. Focusing on latent-variable generative policies, we show that hallucinations often arise from structural mismatches between feasible robot behavior and common model architectures. We study three such barriers -- topological, precision, and horizon -- and show how they impose unavoidable tradeoffs. Our analysis provides mechanistic explanations for reported empirical failures of generative robot policies and suggests principled directions for improving reliability and trustworthiness, without abandoning their expressive power.
- Abstract(参考訳): Vision-Language-Action Modelのようなロボットファンデーションモデルは、手作業で設計したプランナーをエンドツーエンドの生成アクションモデルに置き換え、ロボットポリシーのトレーニングとデプロイ方法を急速に変えつつある。
これらのシステムは目覚ましい一般化を示しているが、ロボット工学の長年の課題を根本的に解決するかどうかは不明だ。
本稿では,身体的制約に反する行動幻覚と,計画レベルの失敗への拡張を分析することで,この問題に対処する。
潜在変数生成ポリシーに注目すると、幻覚は、実現可能なロボット行動と一般的なモデルアーキテクチャの間の構造的ミスマッチから生じることがしばしば示される。
我々は、トポロジカル、精度、地平線という3つの障壁を調査し、避けられないトレードオフを課す方法を示している。
本分析は,生成ロボット政策の実証的失敗を報告した機械的説明を提供するとともに,その表現力を捨てることなく,信頼性と信頼性を向上させるための原則的方向性を提案する。
関連論文リスト
- From Generative Engines to Actionable Simulators: The Imperative of Physical Grounding in World Models [4.52033729546524]
世界モデルは、アクションの下で環境がどのように進化するかをシミュレートするAIシステムである。
現在の世界モデルは、高忠実度ビデオ生成が物理的および因果的ダイナミクスの理解を意味するという誤った仮定である。
現代のモデルはピクセルの予測に優れていますが、しばしば不変の制約に違反し、介入の下で失敗し、安全クリティカルな意思決定を断ち切ることを示しています。
論文 参考訳(メタデータ) (2026-01-21T23:35:33Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。
既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。
神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文 参考訳(メタデータ) (2025-11-27T18:50:21Z) - A Step Toward World Models: A Survey on Robotic Manipulation [58.8419978790227]
本稿では,ロボット操作の手法のレビューを通じて,世界モデルのコア機能を示すアプローチについて考察する。
我々は、認識、予測、制御にまたがる役割を分析し、主要な課題と解決策を特定し、完全に実現された世界モデルが持つべきコアコンポーネント、能力、機能を蒸留する。
論文 参考訳(メタデータ) (2025-10-31T00:57:24Z) - Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots [5.993870098970107]
VLA(Vision-Language-Action)モデルは、実際のロボットのための言語ガイド付き汎用制御フレームワークとして提案されている。
本稿では,VLAモデルのソフト連続マニピュレータへの展開について述べる。
論文 参考訳(メタデータ) (2025-10-20T10:06:39Z) - From Mystery to Mastery: Failure Diagnosis for Improving Manipulation Policies [35.18739716338974]
本稿では,臨界故障モード(FM)を自動的に識別するシステムであるロボットマニピュレーション診断(RoboMD)を提案する。
事前訓練された操作ポリシーにおける潜在的なFMの膨大な空間を考慮すると、深層強化学習(deep reinforcement learning, ディープRL)を活用してこれらのFMを探索し、発見する。
非構造環境における未知障害の診断におけるRoboMDの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-03T20:34:51Z) - Rethinking the Intermediate Features in Adversarial Attacks: Misleading Robotic Models via Adversarial Distillation [23.805401747928745]
本稿では,言語調和型ロボットモデルに適した,新たな対角攻撃を提案する。
本研究は,ロボット領域に直接移行した場合,既存の対角法が有効性に限界があることを実証する。
敵攻撃に対する中間的特徴の有益な影響を同定し,攻撃効果を高めるために,中間的自己意図的特徴の負の勾配を利用する。
論文 参考訳(メタデータ) (2024-11-21T02:46:04Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - GRAPPA: Generalizing and Adapting Robot Policies via Online Agentic Guidance [15.774237279917594]
本稿では,ロボットによる自己指導と自己改善のためのエージェントフレームワークを提案する。
本フレームワークは,環境中の関連オブジェクトに対して,ベースロボットポリシーを反復的に適用する。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Learning Vision-based Pursuit-Evasion Robot Policies [54.52536214251999]
我々は、部分的に観察可能なロボットの監督を生成する完全観測可能なロボットポリシーを開発する。
我々は、RGB-Dカメラを搭載した4足歩行ロボットに、野生での追従回避のインタラクションにポリシーを展開させる。
論文 参考訳(メタデータ) (2023-08-30T17:59:05Z) - Towards a Causal Probabilistic Framework for Prediction,
Action-Selection & Explanations for Robot Block-Stacking Tasks [4.244706520140677]
因果モデル(英: Causal model)は、ロボットの環境との相互作用を管理する因果関係の形式的知識を符号化する原則的な枠組みを提供する。
本研究では,物理シミュレーション機能を構造因果モデルに組み込むことで,ロボットがブロックスタッキングタスクの現況を認識・評価できる新しい因果確率的枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-11T15:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。