論文の概要: VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models
- arxiv url: http://arxiv.org/abs/2604.03956v1
- Date: Sun, 05 Apr 2026 04:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.848828
- Title: VLA-Forget: Vision-Language-Action Unlearning for Embodied Foundation Models
- Title(参考訳): VLA-Forget: 身体的基礎モデルのためのビジョン・ランゲージ・アクション・アンラーニング
- Authors: Ravi Ranjan, Agoritsa Polyzou,
- Abstract要約: OpenVLAスタイルのポリシーでは、動作は融合したビジュアルエンコーダ、クロスモーダルプロジェクタ、トークン化されたロボットアクションを予測する言語バックボーンを通じて生成される。
VLA-Forgetは、認識のための比認識選択的編集と、層選択的推論/アクションアンラーニングを組み合わせたハイブリッドアンラーニングフレームワークである。
- 参考スコア(独自算出の注目度): 0.10742675209112619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models are emerging as embodied foundation models for robotic manipulation, but their deployment introduces a new unlearning challenge: removing unsafe, spurious, or privacy-sensitive behaviors without degrading perception, language grounding, and action control. In OpenVLA-style policies, behavior is produced through a fused visual encoder, a cross-modal projector, and a language backbone that predicts tokenized robot actions, so undesirable knowledge can be distributed across perception, alignment, and reasoning/action layers rather than confined to a single module. Consequently, partial unlearning applied only to the vision stack or only to the language backbone is often insufficient, while conventional unlearning baselines designed for standalone vision or language models may leave residual forgetting or incur unnecessary utility loss in embodied settings. We propose VLA-Forget, a hybrid unlearning framework that combines ratio-aware selective editing for perception and cross-modal specificity with layer-selective reasoning/action unlearning for utility-preserving forgetting. VLA-Forget jointly optimizes three objectives: targeted forgetting, perceptual preservation, and reasoning retention, through staged updates over the visual encoder, projector, and upper action-generating transformer blocks. Across forget-set behavior probes and retain-task evaluations, VLA-Forget improves forgetting efficacy by 10%, preserves perceptual specificity by 22%, retains reasoning and task success by 9%, and reduces post-quantization recovery by 55% relative to strong unlearning baselines.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、ロボット操作の基礎モデルとして登場しつつあるが、その展開には、認識の低下や言語基盤、アクションコントロールを損なうことなく、安全で刺激的、あるいはプライバシーに敏感な行動を取り除くという、新たな未学習の課題が導入されている。
OpenVLAスタイルのポリシーでは、動作は融合したビジュアルエンコーダ、クロスモーダルプロジェクタ、およびトークン化されたロボットアクションを予測する言語バックボーンを通じて生成されるため、望ましくない知識は単一のモジュールに制限されるのではなく、知覚、アライメント、推論/アクション層に分散することができる。
そのため、視覚スタックや言語バックボーンにのみ適用される部分的アンラーニングは不十分な場合が多いが、スタンドアロンの視覚モデルや言語モデル用に設計された従来のアンラーニングベースラインは、残余の忘れ物や不要なユーティリティ損失を具体的設定で残すことがある。
VLA-Forgetは、認識のための比認識の選択的編集と横断的特異性と、ユーティリティ保存忘れのための層選択的推論/アクション未学習を組み合わせたハイブリッドアンラーニングフレームワークである。
VLA-Forgetは、視覚エンコーダ、プロジェクタ、上部アクション生成トランスフォーマーブロックのステージ更新を通じて、ターゲットの忘れ、知覚的保存、推論保持の3つの目的を共同で最適化する。
VLA-Forgetは、リクエストセットの行動プローブとretain-task評価を通じて、リクエストの有効性を10%改善し、知覚的特異性を22%維持し、推論とタスク成功を9%維持し、未学習の強いベースラインと比較して、時間後リカバリを55%削減する。
関連論文リスト
- MeGU: Machine-Guided Unlearning with Target Feature Disentanglement [73.49657372882082]
本稿では,概念意識の再調整を通じて学習をガイドする新しいフレームワークを提案する。
MeGUは制御的かつ選択的に忘れることを可能にし、アンダーアンラーニングとオーバーアンラーニングの両方を効果的に緩和する。
論文 参考訳(メタデータ) (2026-02-19T05:20:31Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - Wisdom is Knowing What not to Say: Hallucination-Free LLMs Unlearning via Attention Shifting [11.725875396424927]
選択的アンラーニングのためのAttention-Shifting(AS)フレームワークを導入する。
ASは,(1)LLMの言語構造を損なうことなく,事実を含むトークンへの注意を弱める文脈保存抑制,(2)未学習コンテンツについて問い合わせたときの完成度を損なう幻覚耐性応答の2つの設計目標によって駆動される。
実験の結果、ASは最先端の未学習手法よりも性能を向上し、ToFUベンチマークでは最大15%、TDECベンチマークでは10%の精度を達成し、競合する幻覚のない未学習の有効性を維持した。
論文 参考訳(メタデータ) (2025-10-20T06:50:03Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。