Fugu-MT 論文翻訳(概要): SPRIG: Stackelberg Perception-Reinforcement Learning with Internal Game Dynamics

論文の概要: SPRIG: Stackelberg Perception-Reinforcement Learning with Internal Game Dynamics

arxiv url: http://arxiv.org/abs/2502.14264v1
Date: Thu, 20 Feb 2025 05:02:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.517287
Title: SPRIG: Stackelberg Perception-Reinforcement Learning with Internal Game Dynamics
Title（参考訳）: SPRIG: 内部ゲームダイナミクスを用いたStackelberg知覚強化学習
Authors: Fernando Martinez-Lopez, Juntao Chen, Yingdong Lu,
Abstract要約: この研究は、単一のエージェント内の内部知覚と政治の相互作用を協調的なStackelbergゲームとしてモデル化するフレームワークであるSPRIGを紹介する。 Atari BeamRider環境における実験結果は,SPRIGの有効性を示し,通常のPPOよりも約30%高いリターンを達成した。
参考スコア（独自算出の注目度）: 50.098144774716495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep reinforcement learning agents often face challenges to effectively coordinate perception and decision-making components, particularly in environments with high-dimensional sensory inputs where feature relevance varies. This work introduces SPRIG (Stackelberg Perception-Reinforcement learning with Internal Game dynamics), a framework that models the internal perception-policy interaction within a single agent as a cooperative Stackelberg game. In SPRIG, the perception module acts as a leader, strategically processing raw sensory states, while the policy module follows, making decisions based on extracted features. SPRIG provides theoretical guarantees through a modified Bellman operator while preserving the benefits of modern policy optimization. Experimental results on the Atari BeamRider environment demonstrate SPRIG's effectiveness, achieving around 30% higher returns than standard PPO through its game-theoretical balance of feature extraction and decision-making.
Abstract（参考訳）: 深層強化学習エージェントは、特に特徴の関連性が異なる高次元感覚入力環境において、知覚と意思決定の要素を効果的に調整する課題に直面していることが多い。 SPRIG(Stackelberg Perception-Reinforcement Learning with Internal Game dynamics)は、単一のエージェント内の内部知覚と政治の相互作用を協調的なStackelbergゲームとしてモデル化するフレームワークである。 SPRIGでは、知覚モジュールは、生の知覚状態を戦略的に処理するリーダーとして機能し、ポリシーモジュールは、抽出された特徴に基づいて決定を行う。 SPRIGは、現代の政策最適化の利点を保ちながら、修正されたベルマン演算子を通して理論的保証を提供する。 Atari BeamRider環境における実験結果は,SPRIGの有効性を示し,特徴抽出と意思決定のゲーム理論的バランスを通じて,標準PPOよりも約30%高いリターンを達成した。

関連論文リスト

Independent Learning in Performative Markov Potential Games [4.433315630787158]
マルコフポテンシャルゲーム(MPG)に演奏効果を取り入れたマルチエージェントPRLの研究を行った。独立政策勾配上昇 (IPGA) と独立自然政策勾配 (INPG) が, 最良イテレート感覚の近似勾配に収束することを示す。
論文参考訳（メタデータ） (2025-04-29T09:46:16Z)
Salience-Invariant Consistent Policy Learning for Generalization in Visual Reinforcement Learning [0.0]
見えないシナリオにポリシーを一般化することは、視覚的強化学習において重要な課題である。目に見えない環境では、不注意なピクセルがエージェントにタスク関連情報を含む表現を抽出させる可能性がある。ゼロショット一般化のための効率的なフレームワークであるSalience-Invariant Consistent Policy Learningアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-12T12:00:16Z)
Generalized Back-Stepping Experience Replay in Sparse-Reward Environments [2.6887381380521878]
バックステッピング体験リプレイ(BER)は、可逆環境における学習効率を向上する強化学習技術である。元のアルゴリズムは複雑な探索を必要としない密集再帰環境のために設計されている。本稿では,従来のアルゴリズムをスパース・リワード環境に拡張した汎用BER(Generalized BER, GBER)を提案する。
論文参考訳（メタデータ） (2024-12-20T03:31:23Z)
PRACT: Optimizing Principled Reasoning and Acting of LLM Agent [96.10771520261596]
本稿では、軌道データから行動原理を学習し、強制するための新しい手法である、原則推論と行為(PRAct)フレームワークを紹介する。我々は,行動原理を特定のタスク要求に適応させるため,新しい最適化フレームワークであるリフレクティブ原則最適化(RPO)を提案する。 4つの環境にまたがる実験の結果、PRActエージェントは、RPOフレームワークを活用し、効果的に学習し、パフォーマンスを高めるためにアクション原則を適用します。
論文参考訳（メタデータ） (2024-10-24T08:21:51Z)
Strategic Classification With Externalities [11.36782598786846]
戦略分類問題の新しい変種を提案する。実世界のアプリケーションによって動機づけられた我々のモデルは、あるエージェントの操作が他のエージェントに影響を与えることを決定的に許している。特定の仮定の下では、このエージェント操作ゲームの純粋なナッシュ平衡はユニークであり、効率的に計算できることが示される。
論文参考訳（メタデータ） (2024-10-10T15:28:04Z)
Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution [92.84441068115517]
Investigate-Consolidate-Exploit(ICE)は、AIエージェントの適応性と柔軟性を高めるための新しい戦略である。 ICEは、真の自己進化のためのタスク間の知識の伝達を促進する。 XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減する。
論文参考訳（メタデータ） (2024-01-25T07:47:49Z)
Conformal Policy Learning for Sensorimotor Control Under Distribution Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文参考訳（メタデータ） (2023-11-02T17:59:30Z)
Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。 ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。 ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文参考訳（メタデータ） (2023-11-02T16:52:36Z)
Robust Multi-Agent Reinforcement Learning via Adversarial Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。 MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文参考訳（メタデータ） (2023-10-16T20:14:06Z)
PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文参考訳（メタデータ） (2023-06-11T09:45:31Z)
Reinforced Pedestrian Attribute Recognition with Group Optimization Reward [15.630702608104421]
Pedestrian Attribute Recognition(PAR)における2つの重要な課題は、画像と属性のアライメント関係と、不均衡なデータ分布である。本稿では,強化学習フレームワークによる意思決定課題として取り上げる。エージェントを用いて各属性群を識別し,深層Q-ラーニングアルゴリズムを用いて学習する。
論文参考訳（メタデータ） (2022-05-21T03:38:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。