論文の概要: Swift-Sarsa: Fast and Robust Linear Control
- arxiv url: http://arxiv.org/abs/2507.19539v1
- Date: Tue, 22 Jul 2025 15:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.568392
- Title: Swift-Sarsa: Fast and Robust Linear Control
- Title(参考訳): Swift-Sarsa: 高速でロバストな線形制御
- Authors: Khurram Javed, Richard S. Sutton,
- Abstract要約: Javed、Sharifnassab、Sutton(2024年)は、True Online TD($lambda$)をステップサイズ最適化で拡張する、TD学習のための新しいアルゴリズム、SwiftTDを導入した。
SwiftTDは、Atariゲームから派生した様々な予測タスクでTrue Online TD($lambda$)とTD($lambda$)を上回った。
我々はSwiftTDを拡張して、$textit-Sarsa$というオンデマンドの強化学習アルゴリズムを開発することで、制御問題に対処する。
- 参考スコア(独自算出の注目度): 8.338069868427986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Javed, Sharifnassab, and Sutton (2024) introduced a new algorithm for TD learning -- SwiftTD -- that augments True Online TD($\lambda$) with step-size optimization, a bound on the effective learning rate, and step-size decay. In their experiments SwiftTD outperformed True Online TD($\lambda$) and TD($\lambda$) on a variety of prediction tasks derived from Atari games, and its performance was robust to the choice of hyper-parameters. In this extended abstract we extend SwiftTD to work for control problems. We combine the key ideas behind SwiftTD with True Online Sarsa($\lambda$) to develop an on-policy reinforcement learning algorithm called $\textit{Swift-Sarsa}$. We propose a simple benchmark for linear on-policy control called the $\textit{operant conditioning benchmark}$. The key challenge in the operant conditioning benchmark is that a very small subset of input signals are relevant for decision making. The majority of the signals are noise sampled from a non-stationary distribution. To learn effectively, the agent must learn to differentiate between the relevant signals and the noisy signals, and minimize prediction errors by assigning credit to the weight parameters associated with the relevant signals. Swift-Sarsa, when applied to the operant conditioning benchmark, learned to assign credit to the relevant signals without any prior knowledge of the structure of the problem. It opens the door for solution methods that learn representations by searching over hundreds of millions of features in parallel without performance degradation due to noisy or bad features.
- Abstract(参考訳): Javed氏、Sharifnassab氏、Sutton氏(2024年)は、True Online TD($\lambda$)を拡張したTD学習のための新しいアルゴリズム、SwiftTDを導入した。
彼らの実験では、SwiftTDはAtariゲームから派生した様々な予測タスクにおいてTrue Online TD($\lambda$)とTD($\lambda$)を上回り、その性能はハイパーパラメータの選択に対して堅牢であった。
この拡張抽象化では、制御問題に対処するためにSwiftTDを拡張します。
SwiftTDの背景にある重要なアイデアとTrue Online Sarsa($\lambda$)を組み合わせて、$\textit{Swift-Sarsa}$という、政治上の強化学習アルゴリズムを開発します。
我々は,$\textit{operant conditioning benchmark}$という,線形オンライン制御のための単純なベンチマークを提案する。
オペラント条件付けベンチマークにおける重要な課題は、入力信号のごく一部が意思決定に関係していることである。
信号の大部分は非定常分布からサンプリングされるノイズである。
効果的に学習するには、エージェントは関連する信号とノイズ信号の区別を学び、関連する信号に関連する重みパラメータにクレジットを割り当てることで予測誤差を最小化する必要がある。
Swift-Sarsaは、オペラント条件付けベンチマークに適用されると、問題の構造に関する事前の知識なしに、関連する信号にクレジットを割り当てることを学んだ。
ノイズや悪い機能によるパフォーマンス劣化を伴わずに、数億の機能を並列に検索することで表現を学習するソリューションメソッドの扉を開く。
関連論文リスト
- $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - SAND: One-Shot Feature Selection with Additive Noise Distortion [3.5976830118932583]
我々は、ニューラルネットワークトレーニング中に最も有用な機能を自動的に識別し、選択する新しい非侵入的特徴選択層を導入する。
本手法は,損失関数,ネットワークアーキテクチャ,選択後再学習などの変更を要さず,一意に単純である。
私たちの研究は、単純さとパフォーマンスが相互に排他的ではなく、機械学習における機能選択の強力な、かつ直接的なツールであることを示している。
論文 参考訳(メタデータ) (2025-05-06T18:59:35Z) - Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning [33.28797183140384]
時間差(TD)学習は、分散を克服するためにブートストラップを使用するが、多くのイテレーションでしか修正できないバイアスを導入する。
ラムダ$-returnターゲットの計算モデルからトランジションの予測確率を利用するチャンク付きTDを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:49:29Z) - Non-stationary Online Convex Optimization with Arbitrary Delays [50.46856739179311]
本稿では,非定常環境における遅延オンライン凸最適化(OCO)について検討する。
まず, 遅延勾配の勾配降下ステップを, 到着順に応じて行う単純なアルゴリズム, DOGDを提案する。
DOGDが達成した動的後悔境界を$O(sqrtbardT(P_T+1))$に削減する改良アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-20T07:54:07Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Asynchronous Training Schemes in Distributed Learning with Time Delay [17.259708772713164]
分散ディープラーニングの文脈では、固定重みや勾配の問題によってアルゴリズムの性能が低下する可能性がある。
本稿では,静的な重みや勾配の問題に対処する別のアプローチを提案する。
また,PC-ASGDの実用版として,トレードオフパラメータの決定を支援する条件を適用して提案する。
論文 参考訳(メタデータ) (2022-08-28T07:14:59Z) - Deep Continuous Prompt for Contrastive Learning of Sentence Embeddings [8.70715711885114]
本稿では,言語モデル全体を凍結し,プレフィックスの深い連続的なプロンプトのみを最適化する新しい手法を提案する。
元の言語モデルの約0.1%のパラメータをチューニングするだけでなく、手作りのプロンプトを検索する面倒な計算を避ける。
提案したDCPCSEは最先端のSimCSEよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-03-14T06:07:44Z) - Towards Demystifying Representation Learning with Non-contrastive
Self-supervision [82.80118139087676]
自己教師型学習の非競合的手法は、同一画像の2つのビュー間の距離を最小化することにより、表現を学習する。
Tian el al. (2021) は最初の質問に対して最初の試みを行い、予測器を直接設定する DirectPred を提案した。
単純な線形ネットワークにおいて、DirectSet($alpha$)は望ましいプロジェクション行列を確実に学習し、下流タスクにおけるサンプルの複雑さを減少させることを示す。
論文 参考訳(メタデータ) (2021-10-11T00:48:05Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z) - MC-BERT: Efficient Language Pre-Training via a Meta Controller [96.68140474547602]
大規模事前学習は計算コストが高い。
事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。
本稿では,MC-BERTというメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T09:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。