論文の概要: Learning Distinguishable Representations in Deep Q-Networks for Linear Transfer
- arxiv url: http://arxiv.org/abs/2509.24947v1
- Date: Mon, 29 Sep 2025 15:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.101402
- Title: Learning Distinguishable Representations in Deep Q-Networks for Linear Transfer
- Title(参考訳): 線形移動のための深部Q-Networksにおける識別可能な表現の学習
- Authors: Sooraj Sathish, Keshav Goyal, Raghuram Bharadwaj Diddigi,
- Abstract要約: 本稿では,状態の特徴表現間の正の相関を減少させるために,正規化項を導入する新しいQ-ラーニング手法を提案する。
転送学習性能の向上と計算オーバーヘッドの低減に本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 0.9558392439655014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (RL) has demonstrated success in solving complex sequential decision-making problems by integrating neural networks with the RL framework. However, training deep RL models poses several challenges, such as the need for extensive hyperparameter tuning and high computational costs. Transfer learning has emerged as a promising strategy to address these challenges by enabling the reuse of knowledge from previously learned tasks for new, related tasks. This avoids the need for retraining models entirely from scratch. A commonly used approach for transfer learning in RL is to leverage the internal representations learned by the neural network during training. Specifically, the activations from the last hidden layer can be viewed as refined state representations that encapsulate the essential features of the input. In this work, we investigate whether these representations can be used as input for training simpler models, such as linear function approximators, on new tasks. We observe that the representations learned by standard deep RL models can be highly correlated, which limits their effectiveness when used with linear function approximation. To mitigate this problem, we propose a novel deep Q-learning approach that introduces a regularization term to reduce positive correlations between feature representation of states. By leveraging these reduced correlated features, we enable more effective use of linear function approximation in transfer learning. Through experiments and ablation studies on standard RL benchmarks and MinAtar games, we demonstrate the efficacy of our approach in improving transfer learning performance and thereby reducing computational overhead.
- Abstract(参考訳): Deep Reinforcement Learning (RL)は、ニューラルネットワークとRLフレームワークを統合することで、複雑なシーケンシャルな意思決定問題を解決することに成功した。
しかしながら、深部RLモデルのトレーニングには、広範なハイパーパラメータチューニングや高い計算コストの必要性など、いくつかの課題がある。
トランスファーラーニングは、これらの課題に対処するための有望な戦略として、以前に学習したタスクから新しい関連するタスクへの知識の再利用を可能にした。
これにより、モデルを完全にスクラッチから再トレーニングする必要がなくなる。
RLにおけるトランスファーラーニングの一般的なアプローチは、トレーニング中にニューラルネットワークが学習した内部表現を活用することである。
具体的には、最後の隠された層からのアクティベーションは、入力の本質的な特徴をカプセル化した洗練された状態表現と見なすことができる。
本研究では,これらの表現が線形関数近似器などのより単純なモデルの入力として,新しいタスクで利用できるかどうかを検討する。
標準深部RLモデルで学習した表現は高い相関性を持ち,線形関数近似を用いた場合の有効性を抑えることができる。
この問題を軽減するために,状態の特徴表現間の正の相関を減少させる正規化項を導入する,新しいQ-ラーニング手法を提案する。
これらの相関性を低減した特徴を利用することで、伝達学習における線形関数近似をより効果的に活用することができる。
標準RLベンチマークとMinAtarゲームに関する実験およびアブレーション研究を通じて,転送学習性能の向上と計算オーバーヘッドの低減に本手法の有効性を実証した。
関連論文リスト
- RL as Regressor: A Reinforcement Learning Approach for Function Approximation [0.0]
強化学習(RL)問題としてフレーミング回帰を提案する。
モデルの予測をアクションとして扱い、予測誤差に基づいてカスタム報酬信号を定義することでこれを実証する。
我々は,RLフレームワークが回帰問題をうまく解決するだけでなく,目的の定義や学習プロセスの指導において柔軟性も向上することを示した。
論文 参考訳(メタデータ) (2025-07-31T21:39:24Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs [39.84233556353338]
コンテキスト内学習は、トランスフォーマーのようなモデルが重みを更新することなく、新しいタスクに適応できるようにする。
本研究では,n-gram誘導ヘッドをインコンテキストRLの変換器に統合した。
我々のアプローチは一致し、場合によってはグリッドワールドとピクセルベースの環境でのアルゴリズム蒸留(AD)の性能を上回ります。
論文 参考訳(メタデータ) (2024-11-04T10:31:03Z) - Transformers Can Learn Temporal Difference Methods for In-Context Reinforcement Learning [17.714908233024847]
強化学習(RL)エージェントは、タスク環境とのインタラクションを通じてニューラルネットワークパラメータを更新することで、新しいタスクの解決を学ぶ。
最近の研究は、一部のRLエージェントが、特定の事前訓練手順の後に、パラメーター更新なしで見知らぬ新しいタスクを解くことができることを示した。
論文 参考訳(メタデータ) (2024-05-22T17:38:16Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Learning the Travelling Salesperson Problem Requires Rethinking
Generalization [9.176056742068813]
トラベリングセールスパーソン問題(TSP)のようなグラフ最適化問題に対するニューラルネットワークソルバのエンドツーエンドトレーニングは近年,関心が高まっている。
最先端の学習駆動アプローチは、自明に小さなサイズで訓練された場合、古典的な解法と密接に関係するが、実践的な規模で学習ポリシーを大規模に一般化することはできない。
この研究は、トレーニングで見られるものよりも大きいインスタンスへの一般化を促進する、原則化されたバイアス、モデルアーキテクチャ、学習アルゴリズムを特定するために、最近の論文を統一するエンドツーエンドのニューラルネットワークパイプラインを提示している。
論文 参考訳(メタデータ) (2020-06-12T10:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。