論文の概要: R2R2: Robust Representation for Intensive Experience Reuse via Redundancy Reduction in Self-Predictive Learning
- arxiv url: http://arxiv.org/abs/2605.14026v1
- Date: Wed, 13 May 2026 18:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.45961
- Title: R2R2: Robust Representation for Intensive Experience Reuse via Redundancy Reduction in Self-Predictive Learning
- Title(参考訳): R2R2:自己予測学習における冗長化による集中的体験再利用のためのロバスト表現
- Authors: Sanghyeob Song, Donghyeok Lee, Jinsik Kim, Sungroh Yoon,
- Abstract要約: 自己予測学習(SPL)における正規化手法として冗長化によるロバスト表現(R2R2)を提案する。
TD7のようなSPLネイティブアルゴリズム上でR2R2を検証する。
11の連続制御タスクに対する実験では、R2R2がオーバーフィッティングを効果的に軽減することを確認した。
- 参考スコア(独自算出の注目度): 40.03346193264488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For reinforcement learning in data-scarce domains like real-world robotics, intensive data reuse enhances efficiency but induces overfitting. While prior works focus on critic bias, representation-level instability in Self-Predictive Learning (SPL) under high Update-to-Data (UTD) regimes remains underexplored. To bridge this gap, we propose Robust Representation via Redundancy Reduction (R2R2), a regularization method within SPL. We theoretically identify that standard zero-centering conflicts with SPL's spectral properties and design a non-centered objective accordingly. We verify R2R2 on SPL-native algorithms like TD7. Furthermore, to demonstrate its orthogonality to prior advancements, we extend the state-of-the-art SimbaV2, which originally lacks SPL, by integrating a tailored SPL module, termed SimbaV2-SPL. Experiments across 11 continuous control tasks confirm that R2R2 effectively mitigates overfitting; specifically, at a UTD ratio of 20, it improves TD7 by ~22% and provides additional gains on top of SimbaV2-SPL, which itself establishes a new state-of-the-art. The code can be found at: https://github.com/songsang7/R2R2
- Abstract(参考訳): 現実世界のロボティクスのようなデータ共有分野における強化学習のために、集中的なデータ再利用は効率を高めるが、過度な適合を引き起こす。
先行研究は批判バイアスに焦点が当てられていたが、高度更新データ(UTD)体制下での自己予測学習(SPL)における表現レベルの不安定性は未解明のままである。
このギャップを埋めるために,SPL内の正規化手法である冗長化(R2R2)によるロバスト表現を提案する。
理論的には、標準ゼロ中心はSPLのスペクトル特性と矛盾し、それに応じて非中心の目的を設計する。
TD7のようなSPLネイティブアルゴリズム上でR2R2を検証する。
さらに,SimbaV2-SPLと呼ばれるSPLモジュールを統合することで,SPLを欠いた最先端のSimbaV2を拡張した。
R2R2はUTD比20でTD7を約22%改善し、SimbaV2-SPL上で新たな最先端技術を確立する。
コードは、https://github.com/songsang7/R2R2で参照できる。
関連論文リスト
- CSRv2: Unlocking Ultra-Sparse Embeddings [52.553928856110296]
CSR(Contrastive Sparse Representation)は、高次元だが k-スパースベクトルに密着した埋め込みをマッピングするための有望な方向として提案されている。
CSRは、80%以上のニューロンが不活性のままである超スパース状態において深刻な劣化を被る。
CSRv2は、超スパースな埋め込みを実現するために設計された、原則化されたトレーニング手法である。
論文 参考訳(メタデータ) (2026-02-05T14:59:51Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Decomposing and Composing: Towards Efficient Vision-Language Continual Learning via Rank-1 Expert Pool in a Single LoRA [50.97792275353563]
単一低ランク適応 (LoRA) モジュールを分解可能な Rank-1 エキスパートプールとして再構成する,新しいフレームワークを提案する。
本手法では,このエキスパートプールから[Guided]トークンのセマンティクスに導かれて,疎結合でタスク固有の更新を動的に作成することを学ぶ。
論文 参考訳(メタデータ) (2026-01-30T10:54:51Z) - Variational Rank Reduction Autoencoders [1.4353812560047186]
本稿では、RRAEとVAEの両方の利点を生かしたモデルとして、変動ランク低減オートエンコーダ(VRRAE)を提案する。
私たちの結果には、VRRAEの破壊に対する堅牢性を示す小さなサイズの合成データセットと、3つの実世界のデータセットが含まれています。
論文 参考訳(メタデータ) (2025-05-14T15:08:28Z) - SubZero: Subspace Zero-Shot MRI Reconstruction [4.725428444472479]
最近導入されたゼロショット自己教師学習(ZS-SSL)は、スキャン固有のシナリオにおいて、加速MRIの可能性を示している。
本稿では,並列ネットワークフレームワークを提案し,サブスペース学習を改善するためのアテンションメカニズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T22:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。