Fugu-MT 論文翻訳(概要): Stackelberg Coupling of Online Representation Learning and Reinforcement Learning

論文の概要: Stackelberg Coupling of Online Representation Learning and Reinforcement Learning

arxiv url: http://arxiv.org/abs/2508.07452v1
Date: Sun, 10 Aug 2025 18:36:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-12 21:23:28.863187
Title: Stackelberg Coupling of Online Representation Learning and Reinforcement Learning
Title（参考訳）: Stackelbergによるオンライン表現学習と強化学習の結合
Authors: Fernando Martinez, Tao Li, Yingdong Lu, Juntao Chen,
Abstract要約: 表現と政策の統合的エンドツーエンド学習は、深層強化学習(RL)の基盤のままである。最近のトレンドは、複雑な補助的な目的や、2つのプロセスを完全に分離することへと移行している。この研究は、性能を著しく改善できると主張し、疎結合と素直なエンドツーエンド学習の両方に代わるものを提案する。
参考スコア（独自算出の注目度）: 49.00028802135605
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Integrated, end-to-end learning of representations and policies remains a cornerstone of deep reinforcement learning (RL). However, to address the challenge of learning effective features from a sparse reward signal, recent trends have shifted towards adding complex auxiliary objectives or fully decoupling the two processes, often at the cost of increased design complexity. This work proposes an alternative to both decoupling and naive end-to-end learning, arguing that performance can be significantly improved by structuring the interaction between distinct perception and control networks with a principled, game-theoretic dynamic. We formalize this dynamic by introducing the Stackelberg Coupled Representation and Reinforcement Learning (SCORER) framework, which models the interaction between perception and control as a Stackelberg game. The perception network (leader) strategically learns features to benefit the control network (follower), whose own objective is to minimize its Bellman error. We approximate the game's equilibrium with a practical two-timescale algorithm. Applied to standard DQN variants on benchmark tasks, SCORER improves sample efficiency and final performance. Our results show that performance gains can be achieved through principled algorithmic design of the perception-control dynamic, without requiring complex auxiliary objectives or architectures.
Abstract（参考訳）: 表現とポリシーの統合的なエンドツーエンドの学習は、深い強化学習(RL)の基盤のままである。しかし、スパース報酬信号から効果的な特徴を学習するという課題に対処するため、最近のトレンドは、複雑な補助的な目的や、設計の複雑さを増大させるコストで2つのプロセスを完全に分離することへと移行している。本研究は,異なる知覚と制御ネットワーク間の相互作用を,ゲーム理論の原理によって構築することにより,性能を著しく向上させることができる,という,疎結合学習と直感的エンド・ツー・エンド学習の両代替案を提案する。 Stackelberg Coupled Representation and Reinforcement Learning (SCORER) フレームワークを導入して,このダイナミクスを定式化する。知覚ネットワーク(リーダー)は、ベルマンエラーを最小限に抑えることを目的とした制御ネットワーク(フォロワー)に利益をもたらすために、戦略的に特徴を学習する。ゲーム平衡を実用的2時間スケールのアルゴリズムで近似する。ベンチマークタスクの標準DQN変種に対して、SCORERはサンプル効率と最終的なパフォーマンスを改善している。この結果から,複雑な補助目的やアーキテクチャを必要とせずに,知覚制御力学のアルゴリズム設計により性能向上が達成できることが示唆された。

関連論文リスト

Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文参考訳（メタデータ） (2025-08-04T10:08:10Z)
Confidence-driven Gradient Modulation for Multimodal Human Activity Recognition: A Dynamic Contrastive Dual-Path Learning Approach [3.0868241505670198]
動的コントラストデュアルパスネットワーク(D-HAR)と呼ばれる新しいフレームワークを提案する。まず、デュアルパスの特徴抽出アーキテクチャを使用し、ResNetとDenseCDPNetが協調してマルチモーダルセンサデータを処理している。第二に、局所的な知覚から意味的抽象への進歩的なアライメントを実現するために、多段階のコントラスト学習機構を導入する。第3に、バックプロパゲーション中の各モード分岐の学習強度を動的に監視・調整する信頼性駆動型勾配変調方式を提案する。
論文参考訳（メタデータ） (2025-07-03T17:37:46Z)
Dataset Awareness is not Enough: Implementing Sample-level Tail Encouragement in Long-tailed Self-supervised Learning [16.110763554788445]
擬似ラベル情報を利用して動的温度と再重み付け戦略を推進し、自己教師付き長期学習に擬似ラベルを導入する。我々は,温度パラメータにおける量認識の欠如を分析し,この不足を補うために再重み付けを用いて,サンプルレベルで最適なトレーニングパターンを実現する。
論文参考訳（メタデータ） (2024-10-30T10:25:22Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。 Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文参考訳（メタデータ） (2022-10-27T13:24:08Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
DHEN: A Deep and Hierarchical Ensemble Network for Large-Scale Click-Through Rate Prediction [20.51885543358098]
ヘテロジニアス相互作用モジュールの強みを生かし、異なる順序で相互作用の階層構造を学習できる深層・階層型アンサンブルアーキテクチャDHENを提案する。 CTR予測タスクからの大規模データセットの実験では、予測の正規化エントロピーが0.27%向上し、最先端のベースラインよりも1.2倍優れたトレーニングスループットが得られた。
論文参考訳（メタデータ） (2022-03-11T21:19:31Z)
Weakly Supervised Disentangled Representation for Goal-conditioned Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。 DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文参考訳（メタデータ） (2022-02-28T09:05:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。