論文の概要: Capability and Robustness Cannot Both Be Free: An Information-Theoretic Bound for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.25889v3
- Date: Thu, 28 May 2026 08:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.644082
- Title: Capability and Robustness Cannot Both Be Free: An Information-Theoretic Bound for Vision-Language-Action Models
- Title(参考訳): 機能とロバスト性は両立できない:視覚・言語・行動モデルのための情報理論境界
- Authors: Jianwei Tai,
- Abstract要約: 経験的防御は、損失の一部をクリーンな精度で回収する。
我々は,行動生成ポリシーに対する情報理論上の最初の境界を与えることによって,それが可能であることを証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models reach high success rates on clean inputs but collapse under small adversarial perturbations: a $16/255$ PGD attack drops OpenVLA-7B's LIBERO success from above $95\%$ to under $5\%$. Empirical defenses recover part of the loss at a cost in clean accuracy, but the literature does not say whether the trade-off has a theoretical floor. We prove that it does, giving the first information-theoretic bound for action-generating policies. For any VLA policy, capability (mutual information between policy action and oracle action) and robustness (mutual information preserved under attack, minus the action-channel leakage that policies can passively transmit through their output) sum to at most a policy-independent budget: task entropy plus adversarial channel capacity. The leakage term has no analogue in classifier formulations, and is what keeps the inequality tight on action spaces, which can carry attack signal directly. The proof reduces to two applications of the Data Processing Inequality, and an encoder-specific corollary tightens the pixel-level bound by over an order of magnitude on a per-experiment basis. We validate the bound with zero violations across $320$ cells spanning closed-form Gaussian-VLAs, OpenVLA-7B under PGD and Square attacks across all four LIBERO suites, multi-step horizons up to $T{=}10$, and two structurally different action heads (continuous-$L_1$ regression and flow-matching). The bound also yields three diagnostics that practitioners can compute from $\le 200$ samples without ground-truth labels: a pre-flight encoder ceiling for deployment audits, a defense-forensics probe that identifies which channel stage a defense intervenes in, and a head-agnostic robustness ratio that compares discrete-token, $L_1$-regression, and flow-matching policies on equal footing where success-rate-under-attack cannot.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルはクリーンな入力で高い成功率に達するが、小さな敵の摂動の下で崩壊する:16/255$ PGDアタックはOpenVLA-7BのLIBEROの成功を9,5\%以上から5\%以下に下げる。
実証的な防御は、損失の一部を清潔な精度で回収するが、このトレードオフが理論的なフロアを持つかどうかは文献では定かではない。
我々は,行動生成ポリシーに対する情報理論上の最初の境界を与えることによって,それが可能であることを証明した。
あらゆるVLAポリシー、能力(ポリシーアクションとオラクルアクションの間の相互情報)、堅牢性(攻撃下で保存された相互情報、ポリシーが彼らの出力を介して受動的に伝達できるアクションチャネルリーク)は、少なくとも政策に依存しない予算であるタスクエントロピーと敵チャネルキャパシティ(英語版)の合計である。
漏洩項は分類器の定式化に類似点がなく、攻撃信号を直接搬送するアクション空間で不等式を厳格に保つ。
この証明はデータ処理不等式(Data Processing Inequality)の2つの応用に還元され、エンコーダ固有のコローナは、実験単位でピクセルレベルの境界を1桁以上締め付ける。
我々は,Gaussian-VLA,OpenVLA-7B,PGD,Squareの4つのLIBEROスイート,最大$T{=}10$,構造的に異なる2つのアクションヘッド(連続-$L_1$レグレッションとフローマッチング)にまたがる320ドルのセルにまたがるゼロ違反を検証した。
このバウンドは、実践者が地道なラベルなしで200ドル(約2万2000円)のサンプルから計算できる3つの診断結果も得る: 配備監査のための事前飛行エンコーダの天井、防衛が介入するチャネルを識別する防衛法調査、個別のトーケン、$L_1$-regression、そして成功率-攻撃が不可能な平等な足場でのフローマッチングポリシー。
関連論文リスト
- Binary Rewards and Reinforcement Learning: Fundamental Challenges [7.106986689736826]
RLVRによる強化学習は、言語モデルにおける推論を改善するための標準的なアプローチとなっている。
二項報酬の性質を基礎としたこの現象の構造的説明を提供する。
論文 参考訳(メタデータ) (2026-05-04T09:17:26Z) - Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。
我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文 参考訳(メタデータ) (2024-10-14T04:51:06Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - QuadAttack: A Quadratic Programming Approach to Ordered Top-K Attacks [8.826642352173035]
ディープニューラルネットワーク(DNN)の敵対的脆弱性は広く知られ、広く懸念されている。
本稿は、攻撃的な最上位の$K$攻撃を学習することで、この懸念がはるかに深刻であることを示している。
論文 参考訳(メタデータ) (2023-12-12T05:08:45Z) - Federated Linear Bandits with Finite Adversarial Actions [20.1041278044797]
我々は、M$のクライアントが中央サーバと通信し、線形文脈の帯域幅問題を解決するための連合線形帯域幅モデルについて検討する。
逆有限作用集合のユニークな問題に対処するため、FedSupLinUCBアルゴリズムを提案する。
我々は、FedSupLinUCBが$tildeO(sqrtd T)$の完全後悔を達成したことを証明している。
論文 参考訳(メタデータ) (2023-11-02T03:41:58Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - Robust Policy Gradient against Strong Data Corruption [30.910088777897045]
対人汚職下での堅牢な強化学習の課題を報酬と移行の両面から検討する。
攻撃モデルでは、エピソード内の各ステップで報酬と移行を任意に破壊できるテクティタダプティブな敵を仮定する。
我々はフィルタポリシグラディエントアルゴリズムを開発し、汚職に対する報酬を許容し、$O(epsilon1/4)$-optimal Policy を見つけることができる。
論文 参考訳(メタデータ) (2021-02-11T01:48:38Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Toward Adversarial Robustness via Semi-supervised Robust Training [93.36310070269643]
アドリラルな例は、ディープニューラルネットワーク(DNN)に対する深刻な脅威であることが示されている。
R_stand$ と $R_rob$ の2つの異なるリスクを共同で最小化することで、新しい防御手法であるロバストトレーニング(RT)を提案する。
論文 参考訳(メタデータ) (2020-03-16T02:14:08Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。