論文の概要: Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations
- arxiv url: http://arxiv.org/abs/2604.24661v2
- Date: Tue, 28 Apr 2026 07:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.849926
- Title: Agent-Centric Visual Reinforcement Learning under Dynamic Perturbations
- Title(参考訳): 動的摂動下におけるエージェント中心型視覚強化学習
- Authors: Zhengru Fang, Yu Guo, Fei Liu, Yuang Zhang, Yihang Tao, Senkang Hu, Wenbo Ding, Yuguang Fang,
- Abstract要約: 静止しない現実世界の摂動をシミュレートするためのVisual Degraded Control Suite (VDCS)を導入する。
VDCS実験により,既存手法の大幅な性能劣化が確認された。
本稿では,ACO-MoE (Agen-Centric Observations with Mixture-of-Experts) を提案する。
- 参考スコア(独自算出の注目度): 24.021326345297535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual reinforcement learning aims to empower an agent to learn policies from visual observations, yet it remains vulnerable to dynamic visual perturbations, such as unpredictable shifts in corruption types. To systematically study this, we introduce the Visual Degraded Control Suite (VDCS), a benchmark extending DeepMind Control Suite with Markov-switching degradations to simulate non-stationary real-world perturbations. Experiments on VDCS reveal severe performance degradation in existing methods. We theoretically prove via information-theoretic analysis that this failure stems from reconstruction-based objectives inevitably entangling perturbation artifacts into latent representations. To mitigate this negative impact, we propose Agent-Centric Observations with Mixture-of-Experts (ACO-MoE) to robustify visual RL against perturbations. The proposed framework leverages unique agent-centric restoration experts, achieving restoration from corruptions and task-relevant foreground extraction, thereby decoupling perception from perturbation before being processed by the RL agent. Extensive experiments on VDCS show our ACO-MoE outperforms strong baselines, recovering 95.3% of clean performance under challenging Markov-switching corruptions. Moreover, it achieves SOTA results on DMControl Generalization with random-color and video-background perturbations, demonstrating a high level of robustness.
- Abstract(参考訳): 視覚強化学習は、エージェントが視覚的な観察からポリシーを学ぶ力を高めることを目的としている。
これを体系的に研究するために,DeepMind Control Suiteを拡張したベンチマークであるVisual Degraded Control Suite (VDCS)を導入する。
VDCS実験により,既存手法の大幅な性能劣化が確認された。
理論的には、この失敗は、必然的に摂動アーティファクトを潜伏表現に絡ませることによる、再構成に基づく目的に由来することを情報理論分析によって証明する。
このネガティブな影響を軽減するために,ACO-MoE (Agen-Centric Observations with Mixture-of-Experts) を提案する。
提案手法は, 独自のエージェント中心の復元専門家を活用し, 汚職からの回復とタスク関連前景抽出を達成し, RLエージェントによって処理される前に摂動からの知覚を分離する。
VDCSの大規模な実験により、ACO-MoEは強いベースラインを上回り、マルコフの汚職に挑戦して95.3%のクリーンパフォーマンスを回復した。
さらに、DMControl Generalizationにおいて、ランダムカラーおよびビデオバックグラウンドの摂動によるSOTA結果を達成し、高いロバスト性を示す。
関連論文リスト
- Mitigating Error Amplification in Fast Adversarial Training [58.74042726356826]
FAT(Fast Adversarial Training)は、ネットワークに摂動不変表現の学習を促すことによって、モデルロバスト性の向上に有効であることが証明されている。
FATは、しばしば破滅的なオーバーフィッティング(CO)に悩まされ、モデルがトレーニングアタックに過度に適合し、目に見えないものへの一般化に失敗する。
本稿では、摂動予算と監視信号の両方を動的に調整する分散対応動的ガイダンス(DDG)戦略を提案する。
論文 参考訳(メタデータ) (2026-04-27T11:23:18Z) - Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - Deep Learning Based Dense Retrieval: A Comparative Study [11.705651144832041]
我々は, BERT, Dense Passage Retrieval (DPR), Contriever, SimCSE, ANCEなどのモデルを評価することにより, 汚染トークン化剤に対する高密度検索システムの脆弱性を評価する。
実験の結果, 小さな摂動でも精度に大きく影響し, 重要なアプリケーションにおける堅牢な防御の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-10-27T02:52:36Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。