論文の概要: Stackelberg Coupling of Online Representation Learning and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.07452v2
- Date: Wed, 01 Oct 2025 15:29:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.69193
- Title: Stackelberg Coupling of Online Representation Learning and Reinforcement Learning
- Title(参考訳): Stackelbergによるオンライン表現学習と強化学習の結合
- Authors: Fernando Martinez, Tao Li, Yingdong Lu, Juntao Chen,
- Abstract要約: SCORERは,表現とQラーニングを階層型ゲームにおける2つの戦略エージェントとみなす,価値に基づくRLのためのフレームワークである。
提案するSCORERフレームワークは, 2時間スケールのアルゴリズムで解を近似する二段階最適化問題に導かれる。
- 参考スコア(独自算出の注目度): 45.70357546589222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Q-learning jointly learns representations and values within monolithic networks, promising beneficial co-adaptation between features and value estimates. Although this architecture has attained substantial success, the coupling between representation and value learning creates instability as representations must constantly adapt to non-stationary value targets, while value estimates depend on these shifting representations. This is compounded by high variance in bootstrapped targets, which causes bias in value estimation in off-policy methods. We introduce Stackelberg Coupled Representation and Reinforcement Learning (SCORER), a framework for value-based RL that views representation and Q-learning as two strategic agents in a hierarchical game. SCORER models the Q-function as the leader, which commits to its strategy by updating less frequently, while the perception network (encoder) acts as the follower, adapting more frequently to learn representations that minimize Bellman error variance given the leader's committed strategy. Through this division of labor, the Q-function minimizes MSBE while perception minimizes its variance, thereby reducing bias accordingly, with asymmetric updates allowing stable co-adaptation, unlike simultaneous parameter updates in monolithic solutions. Our proposed SCORER framework leads to a bi-level optimization problem whose solution is approximated by a two-timescale algorithm that creates an asymmetric learning dynamic between the two players. Extensive experiments on DQN and its variants demonstrate that gains stem from algorithmic insight rather than model complexity.
- Abstract(参考訳): ディープQラーニングはモノリシックネットワーク内の表現と値を共同で学習し、特徴と価値見積の間の有益な共適応を約束する。
このアーキテクチャは大きな成功を収めたが、表現と値学習の結合は、非定常的な値ターゲットに常に適応しなければならないため不安定を生じさせ、値推定はこれらのシフトする表現に依存している。
これは、ブートストラップされたターゲットの高分散によって合成され、オフポリシー法における値推定のバイアスを引き起こす。
Stackelberg Coupled Representation and Reinforcement Learning (SCORER)は,階層型ゲームにおける2つの戦略エージェントとして,表現とQ-ラーニングを考慮した価値ベースRLのフレームワークである。
SCORERはQ関数をリーダーとしてモデル化し、頻度を下げて戦略にコミットする一方で、知覚ネットワーク(エンコーダ)がフォロワーとして機能し、リーダーのコミット戦略を考えると、ベルマンの誤差分散を最小限に抑える表現を学習するために、より頻繁に適応する。
この分業によって、Q-関数はMSBEを最小化し、知覚はその分散を最小化し、従ってバイアスを低減し、非対称な更新は、モノリシックソリューションの同時パラメータ更新とは異なり、安定したコ適応を可能にする。
提案したSCORERフレームワークは, 2時間スケールのアルゴリズムで解を近似した二段階最適化問題に導かれる。
DQNとその変種に関する大規模な実験は、ゲインがモデル複雑さよりもアルゴリズム的な洞察に由来することを証明している。
関連論文リスト
- Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Confidence-driven Gradient Modulation for Multimodal Human Activity Recognition: A Dynamic Contrastive Dual-Path Learning Approach [3.0868241505670198]
動的コントラストデュアルパスネットワーク(D-HAR)と呼ばれる新しいフレームワークを提案する。
まず、デュアルパスの特徴抽出アーキテクチャを使用し、ResNetとDenseCDPNetが協調してマルチモーダルセンサデータを処理している。
第二に、局所的な知覚から意味的抽象への進歩的なアライメントを実現するために、多段階のコントラスト学習機構を導入する。
第3に、バックプロパゲーション中の各モード分岐の学習強度を動的に監視・調整する信頼性駆動型勾配変調方式を提案する。
論文 参考訳(メタデータ) (2025-07-03T17:37:46Z) - Dataset Awareness is not Enough: Implementing Sample-level Tail Encouragement in Long-tailed Self-supervised Learning [16.110763554788445]
擬似ラベル情報を利用して動的温度と再重み付け戦略を推進し、自己教師付き長期学習に擬似ラベルを導入する。
我々は,温度パラメータにおける量認識の欠如を分析し,この不足を補うために再重み付けを用いて,サンプルレベルで最適なトレーニングパターンを実現する。
論文 参考訳(メタデータ) (2024-10-30T10:25:22Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - DHEN: A Deep and Hierarchical Ensemble Network for Large-Scale
Click-Through Rate Prediction [20.51885543358098]
ヘテロジニアス相互作用モジュールの強みを生かし、異なる順序で相互作用の階層構造を学習できる深層・階層型アンサンブルアーキテクチャDHENを提案する。
CTR予測タスクからの大規模データセットの実験では、予測の正規化エントロピーが0.27%向上し、最先端のベースラインよりも1.2倍優れたトレーニングスループットが得られた。
論文 参考訳(メタデータ) (2022-03-11T21:19:31Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。