論文の概要: Explainable Adversarial-Robust Vision-Language-Action Model for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.11865v1
- Date: Fri, 05 Dec 2025 15:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.74024
- Title: Explainable Adversarial-Robust Vision-Language-Action Model for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための説明可能な逆回転型ビジョン・ランゲージ・アクションモデル
- Authors: Ju-Young Kim, Ji-Hong Park, Myeongjun Kim, Gun-Woo Kim,
- Abstract要約: 本稿では,OpenVLA-OFTフレームワークをベースとした視覚・言語・行動モデルを提案する。
実験の結果、提案モデルにより、現在の行動L1損失は21.7%減少し、次の行動L1損失はベースラインと比較して18.4%減少することがわかった。
- 参考スコア(独自算出の注目度): 6.34651497702459
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smart farming has emerged as a key technology for advancing modern agriculture through automation and intelligent control. However, systems relying on RGB cameras for perception and robotic manipulators for control, common in smart farming, are vulnerable to photometric perturbations such as hue, illumination, and noise changes, which can cause malfunction under adversarial attacks. To address this issue, we propose an explainable adversarial-robust Vision-Language-Action model based on the OpenVLA-OFT framework. The model integrates an Evidence-3 module that detects photometric perturbations and generates natural language explanations of their causes and effects. Experiments show that the proposed model reduces Current Action L1 loss by 21.7% and Next Actions L1 loss by 18.4% compared to the baseline, demonstrating improved action prediction accuracy and explainability under adversarial conditions.
- Abstract(参考訳): スマート農業は、自動化とインテリジェントな制御を通じて、現代農業を進化させる重要な技術として登場した。
しかし、スマート農業に共通する、RGBカメラとロボットマニピュレータの制御に頼っているシステムは、色調、照明、ノイズ変化などの光度摂動に弱いため、敵の攻撃による故障を引き起こす可能性がある。
この問題に対処するために,OpenVLA-OFTフレームワークをベースとした,逆向きの視覚・言語・行動モデルを提案する。
このモデルはエビデンス3モジュールを統合し、光度摂動を検出し、その原因と影響に関する自然言語の説明を生成する。
実験の結果,提案モデルでは,現在の動作L1損失を21.7%減らし,次の動作L1損失を18.4%減らし,対向条件下での動作予測精度と説明可能性の向上を示した。
関連論文リスト
- Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models [49.92148175114169]
制御された摂動を7次元にわたって導入することにより,系統的な脆弱性解析を行う。
モデルは、カメラの視点やロボットの初期状態を含む摂動要因に対して極端に敏感である。
驚くべきことに、モデルは言語の変化にほとんど敏感であり、さらなる実験により、モデルは言語命令を完全に無視する傾向があることが明らかになった。
論文 参考訳(メタデータ) (2025-10-15T14:51:36Z) - Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models [25.45513133247862]
VLA(Vision-Language-Action)モデルは、ロボット学習において革命的な進歩を遂げている。
この進歩にもかかわらず、その敵意の強固さは未解明のままである。
本稿では,VLAモデルに対する敵パッチ攻撃と対応する防御戦略の両方を提案する。
論文 参考訳(メタデータ) (2025-10-15T07:42:44Z) - Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis [3.1526281887627587]
モデル一般化の予測には推論からのリコールの排除が不可欠である。
我々は、制御された合成言語パズルのデータセットを使用して、層、頭、ニューロンレベルでトランスフォーマーモデルを探索する。
この結果から、リコールと推論は変換器モデルにおける分離可能だが相互作用する回路に依存しているという最初の因果的証拠が得られた。
論文 参考訳(メタデータ) (2025-10-03T04:13:06Z) - FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models [124.02734355214325]
Vision-Language-Action(VLA)モデルはロボティクスの急速な進歩を加速している。
敵画像はVLAモデルを「凍結」し、その後の命令を無視する。
FreezeVLAは、min-maxバイレベル最適化を通じて、アクション凍結攻撃を生成し、評価する。
論文 参考訳(メタデータ) (2025-09-24T08:15:28Z) - Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。
本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。
我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文 参考訳(メタデータ) (2025-05-09T20:28:17Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Adaptation through prediction: multisensory active inference torque
control [0.0]
本稿では,産業用アームのための多感能動型トルクコントローラを提案する。
私たちのコントローラは、予測的脳仮説にインスパイアされ、現在のアクティブな推論アプローチの能力を向上します。
論文 参考訳(メタデータ) (2021-12-13T16:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。