論文の概要: Squeezing More from the Stream : Learning Representation Online for Streaming Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.09396v1
- Date: Tue, 10 Feb 2026 04:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.372187
- Title: Squeezing More from the Stream : Learning Representation Online for Streaming Reinforcement Learning
- Title(参考訳): ストリームからより多くを抽出する : 強化学習のためのオンライン学習表現
- Authors: Nilaksh, Antoine Clavaud, Mathieu Reymond, François Rivest, Sarath Chandar,
- Abstract要約: ストリーミング強化学習(RL)では、トランジッションが観察され、1回の更新直後に破棄される。
本稿では,SPR(Self-Predictive Representations)をストリーミングパイプラインに拡張して,観測フレームの有効性を最大化することを提案する。
本稿では,リプレイバッファの欠如による性能ギャップを埋めることで,よりリッチな表現を学習できることを示す。
- 参考スコア(独自算出の注目度): 14.799267729619428
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In streaming Reinforcement Learning (RL), transitions are observed and discarded immediately after a single update. While this minimizes resource usage for on-device applications, it makes agents notoriously sample-inefficient, since value-based losses alone struggle to extract meaningful representations from transient data. We propose extending Self-Predictive Representations (SPR) to the streaming pipeline to maximize the utility of every observed frame. However, due to the highly correlated samples induced by the streaming regime, naively applying this auxiliary loss results in training instabilities. Thus, we introduce orthogonal gradient updates relative to the momentum target and resolve gradient conflicts arising from streaming-specific optimizers. Validated across the Atari, MinAtar, and Octax suites, our approach systematically outperforms existing streaming baselines. Latent-space analysis, including t-SNE visualizations and effective-rank measurements, confirms that our method learns significantly richer representations, bridging the performance gap caused by the absence of a replay buffer, while remaining efficient enough to train on just a few CPU cores.
- Abstract(参考訳): ストリーミング強化学習(RL)では、トランジッションが観察され、1回の更新直後に破棄される。
これはオンデバイスアプリケーションのリソース使用を最小化するが、値ベースの損失だけで一時的なデータから意味のある表現を引き出すのに苦労するため、エージェントを悪名高いサンプル非効率にする。
本稿では,SPR(Self-Predictive Representations)をストリーミングパイプラインに拡張して,観測フレームの有効性を最大化することを提案する。
しかし, ストリーミング機構によって誘導される高相関試料により, この補助損失はトレーニング不安定性に選択的に適用される。
そこで本研究では,ストリーミング専用オプティマイザから発生する運動量目標に対する直交勾配更新と,勾配競合を解消する手法を提案する。
Atari、MinAtar、Ocaxスイートにまたがって検証された当社のアプローチは、既存のストリーミングベースラインを体系的に上回ります。
t-SNEビジュアライゼーションや実効ランク測定を含む遅延空間解析により,リプレイバッファの欠如による性能ギャップを埋めながら,CPUコアのトレーニングに十分な効率を保ちながら,よりリッチな表現を学習できることが確認された。
関連論文リスト
- Mitigating Catastrophic Forgetting in Streaming Generative and Predictive Learning via Stateful Replay [0.0]
本稿では,ストリーミング自動エンコード時系列予測と分類のためのステートフルリプレイについて統一的な研究を行う。
我々は,Rotated MNIST, ElectricityLoadDiagrams 2011-2014, Airlines遅延データから構築した6つのストリーミングシナリオに対して,単一再生機構を評価する。
ヘテロジニアスなマルチタスクストリームでは、リプレイは平均忘れを2~3倍に減らし、良質な時間ベースストリームでは、どちらのメソッドも同じように動作する。
論文 参考訳(メタデータ) (2025-11-22T06:25:54Z) - Enhanced DACER Algorithm with High Diffusion Efficiency [30.13489573844592]
DACERv2を提案する。これはQ-gradientフィールドの目的を利用して,各拡散ステップにおけるdenoisingプロセスの導出を行う。
DACERv2は,5つの拡散ステップしか持たない複雑な制御環境において高い性能を示し,マルチモーダル性を示す。
論文 参考訳(メタデータ) (2025-05-29T13:21:58Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - The Challenges of Continuous Self-Supervised Learning [40.941767578622745]
自己教師付き学習(SSL)は、表現学習における主要なボトルネックの1つ、すなわち人間のアノテーションの必要性を取り除くことを目的としている。
このような連続的なセットアップに対する現在の手法の直接的な適用は、計算量と必要なデータ量の両方において非効率であることを示す。
本稿では,非効率性や時間的相関の問題を緩和する手法として,リプレイバッファの利用を提案する。
論文 参考訳(メタデータ) (2022-03-23T20:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。