論文の概要: Capability and Robustness Cannot Both Be Free: An Information-Theoretic Bound for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.25889v2
- Date: Tue, 26 May 2026 11:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.173938
- Title: Capability and Robustness Cannot Both Be Free: An Information-Theoretic Bound for Vision-Language-Action Models
- Title(参考訳): 機能とロバスト性は両立できない:視覚・言語・行動モデルのための情報理論境界
- Authors: Jianwei Tai,
- Abstract要約: VLA(Vision-Language-Action)モデルは、予測されたアクションが実行され、障害毎に安全コストがかかる実際のロボットにますますデプロイされる。
OpenVLA-7Bに対する$16/255$のPGD攻撃は、LIBEROの成功を95%以上から5%以下に下げる。
実証的な防御は、清潔な正確さを犠牲にしてある程度の堅牢性を取り戻すが、このトレードオフが理論的なフロアを持つかどうかは文献では定かではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models are increasingly deployed on real robots, where each predicted action is executed and each failure carries a safety cost. They reach high success rates on clean inputs but collapse under small adversarial perturbations. A $16/255$ PGD attack on OpenVLA-7B drops LIBERO success from above $95\%$ to under $5\%$. Empirical defenses recover some robustness at a cost in clean accuracy, but the literature does not say whether the trade-off has a theoretical floor. We prove that it does. For any VLA policy with discrete actions, the sum of capability (mutual information between policy action and oracle action) and robustness (mutual information preserved under adversarial perturbation, net of trivial channel leakage) is upper-bounded by a policy-independent budget: task entropy plus adversarial channel capacity. The proof is two applications of the Data Processing Inequality plus MI non-negativity. The pixel-level bound is policy-independent but loose ($\sim 10^3$ nats); an encoder-specific corollary tightens it on a per-experiment basis to $\approx 86$--$156$ nats at $\eps=8/255$ on OpenVLA, depending on which defense is in place. We validate the bound across $252$ closed-form Gaussian-VLA cells and $48$ OpenVLA-7B $\times$ LIBERO $\times$ PGD cells (zero violations). The encoder bound additionally diagnoses where a defense intervenes in the channel: input-side defenses (JPEG-50) shift the encoder budget by $+41$ to $+101$ nats across $\eps \in \{2,4,8,16\}/255$ ($+68$ at $\eps=8/255$), while LLM-side defenses (rank-16 LoRA) shift it by $\le 9\%$ at every $\eps$ and only $0.7\%$ at $\eps=8/255$. We propose encoder-specific slack as a diagnostic axis paired with raw $\Rob$ for defense reporting, and release all code, manifests, and results.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、予測されたアクションが実行され、障害毎に安全コストがかかる実際のロボットにますますデプロイされる。
クリーンな入力で高い成功率に達するが、小さな逆境の摂動で崩壊する。
OpenVLA-7Bに対する$16/255$ PGD攻撃は、LIBEROの成功を$95\%以上から$5\%以下に下げる。
実証的な防御は、清潔な正確さを犠牲にしてある程度の堅牢性を取り戻すが、このトレードオフが理論的なフロアを持つかどうかは文献では定かではない。
私たちはそれが可能であることを証明します。
個別の行動を持つVLA政策では、能力の総和(ポリシーアクションとオラクルアクションの相互情報)と頑健さ(敵の摂動下で保存された相互情報、自明なチャネルリークのネット)は、政策に依存しない予算、すなわちタスクエントロピーと敵のチャネルキャパシティによって上界される。
この証明はデータ処理の不等式とMI非負性性の2つの応用である。
ピクセルレベルのバウンダリはポリシーに依存しないが、(\sim 10^3$ nats) ゆるい(\sim 10^3$ nats)。
252ドルのクローズドフォームのガウスVLAセルと48ドルのOpenVLA-7B $\times$ LIBERO $\times$ PGD cell(ゼロ違反)のバウンドを検証する。
入力側ディフェンス(JPEG-50)はエンコーダの予算を$+41$から$+101$nats across $\eps \in \{2,4,8,16\}/255$$+68$ at $\eps=8/255$、LCM側のディフェンス(rank-16 LoRA)は$\le 9\%$ at every $\eps$と$0.7\%$ at $\eps=8/255$にシフトする。
防衛報告のための生の$\Rob$と組み合わせた診断軸としてエンコーダ固有のスラックを提案し,すべてのコード,マニフェスト,結果をリリースする。
関連論文リスト
- Binary Rewards and Reinforcement Learning: Fundamental Challenges [7.106986689736826]
RLVRによる強化学習は、言語モデルにおける推論を改善するための標準的なアプローチとなっている。
二項報酬の性質を基礎としたこの現象の構造的説明を提供する。
論文 参考訳(メタデータ) (2026-05-04T09:17:26Z) - Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。
我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文 参考訳(メタデータ) (2024-10-14T04:51:06Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - QuadAttack: A Quadratic Programming Approach to Ordered Top-K Attacks [8.826642352173035]
ディープニューラルネットワーク(DNN)の敵対的脆弱性は広く知られ、広く懸念されている。
本稿は、攻撃的な最上位の$K$攻撃を学習することで、この懸念がはるかに深刻であることを示している。
論文 参考訳(メタデータ) (2023-12-12T05:08:45Z) - Federated Linear Bandits with Finite Adversarial Actions [20.1041278044797]
我々は、M$のクライアントが中央サーバと通信し、線形文脈の帯域幅問題を解決するための連合線形帯域幅モデルについて検討する。
逆有限作用集合のユニークな問題に対処するため、FedSupLinUCBアルゴリズムを提案する。
我々は、FedSupLinUCBが$tildeO(sqrtd T)$の完全後悔を達成したことを証明している。
論文 参考訳(メタデータ) (2023-11-02T03:41:58Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - Robust Policy Gradient against Strong Data Corruption [30.910088777897045]
対人汚職下での堅牢な強化学習の課題を報酬と移行の両面から検討する。
攻撃モデルでは、エピソード内の各ステップで報酬と移行を任意に破壊できるテクティタダプティブな敵を仮定する。
我々はフィルタポリシグラディエントアルゴリズムを開発し、汚職に対する報酬を許容し、$O(epsilon1/4)$-optimal Policy を見つけることができる。
論文 参考訳(メタデータ) (2021-02-11T01:48:38Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Toward Adversarial Robustness via Semi-supervised Robust Training [93.36310070269643]
アドリラルな例は、ディープニューラルネットワーク(DNN)に対する深刻な脅威であることが示されている。
R_stand$ と $R_rob$ の2つの異なるリスクを共同で最小化することで、新しい防御手法であるロバストトレーニング(RT)を提案する。
論文 参考訳(メタデータ) (2020-03-16T02:14:08Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。