論文の概要: SPRIG: Stackelberg Perception-Reinforcement Learning with Internal Game Dynamics
- arxiv url: http://arxiv.org/abs/2502.14264v1
- Date: Thu, 20 Feb 2025 05:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:42.638237
- Title: SPRIG: Stackelberg Perception-Reinforcement Learning with Internal Game Dynamics
- Title(参考訳): SPRIG: 内部ゲームダイナミクスを用いたStackelberg知覚強化学習
- Authors: Fernando Martinez-Lopez, Juntao Chen, Yingdong Lu,
- Abstract要約: この研究は、単一のエージェント内の内部知覚と政治の相互作用を協調的なStackelbergゲームとしてモデル化するフレームワークであるSPRIGを紹介する。
Atari BeamRider環境における実験結果は,SPRIGの有効性を示し,通常のPPOよりも約30%高いリターンを達成した。
- 参考スコア(独自算出の注目度): 50.098144774716495
- License:
- Abstract: Deep reinforcement learning agents often face challenges to effectively coordinate perception and decision-making components, particularly in environments with high-dimensional sensory inputs where feature relevance varies. This work introduces SPRIG (Stackelberg Perception-Reinforcement learning with Internal Game dynamics), a framework that models the internal perception-policy interaction within a single agent as a cooperative Stackelberg game. In SPRIG, the perception module acts as a leader, strategically processing raw sensory states, while the policy module follows, making decisions based on extracted features. SPRIG provides theoretical guarantees through a modified Bellman operator while preserving the benefits of modern policy optimization. Experimental results on the Atari BeamRider environment demonstrate SPRIG's effectiveness, achieving around 30% higher returns than standard PPO through its game-theoretical balance of feature extraction and decision-making.
- Abstract(参考訳): 深層強化学習エージェントは、特に特徴の関連性が異なる高次元感覚入力環境において、知覚と意思決定の要素を効果的に調整する課題に直面していることが多い。
SPRIG(Stackelberg Perception-Reinforcement Learning with Internal Game dynamics)は、単一のエージェント内の内部知覚と政治の相互作用を協調的なStackelbergゲームとしてモデル化するフレームワークである。
SPRIGでは、知覚モジュールは、生の知覚状態を戦略的に処理するリーダーとして機能し、ポリシーモジュールは、抽出された特徴に基づいて決定を行う。
SPRIGは、現代の政策最適化の利点を保ちながら、修正されたベルマン演算子を通して理論的保証を提供する。
Atari BeamRider環境における実験結果は,SPRIGの有効性を示し,特徴抽出と意思決定のゲーム理論的バランスを通じて,標準PPOよりも約30%高いリターンを達成した。
関連論文リスト
- Factorised Active Inference for Strategic Multi-Agent Interactions [1.9389881806157316]
この目的に2つの補完的アプローチを組み込むことができる。
アクティブ推論フレームワーク(AIF)は、エージェントが環境内の信念や行動に適応するために生成モデルをどのように利用するかを記述する。
ゲーム理論は、潜在的に競合する目的を持つエージェント間の戦略的相互作用を定式化する。
本稿では,各エージェントが他のエージェントの内部状態に対する明示的かつ個別的な信念を維持し,それらを共同で戦略的計画に利用する生成モデルの因子化を提案する。
論文 参考訳(メタデータ) (2024-11-11T21:04:43Z) - PRACT: Optimizing Principled Reasoning and Acting of LLM Agent [96.10771520261596]
本稿では、軌道データから行動原理を学習し、強制するための新しい手法である、原則推論と行為(PRAct)フレームワークを紹介する。
我々は,行動原理を特定のタスク要求に適応させるため,新しい最適化フレームワークであるリフレクティブ原則最適化(RPO)を提案する。
4つの環境にまたがる実験の結果、PRActエージェントは、RPOフレームワークを活用し、効果的に学習し、パフォーマンスを高めるためにアクション原則を適用します。
論文 参考訳(メタデータ) (2024-10-24T08:21:51Z) - Strategic Classification With Externalities [11.36782598786846]
戦略分類問題の新しい変種を提案する。
実世界のアプリケーションによって動機づけられた我々のモデルは、あるエージェントの操作が他のエージェントに影響を与えることを決定的に許している。
特定の仮定の下では、このエージェント操作ゲームの純粋なナッシュ平衡はユニークであり、効率的に計算できることが示される。
論文 参考訳(メタデータ) (2024-10-10T15:28:04Z) - OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent
Self-Evolution [92.84441068115517]
Investigate-Consolidate-Exploit(ICE)は、AIエージェントの適応性と柔軟性を高めるための新しい戦略である。
ICEは、真の自己進化のためのタスク間の知識の伝達を促進する。
XAgentフレームワークに関する我々の実験は、ICEの有効性を示し、API呼び出しを最大80%削減する。
論文 参考訳(メタデータ) (2024-01-25T07:47:49Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。
プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。
プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文 参考訳(メタデータ) (2023-06-11T09:45:31Z) - Reinforced Pedestrian Attribute Recognition with Group Optimization
Reward [15.630702608104421]
Pedestrian Attribute Recognition(PAR)における2つの重要な課題は、画像と属性のアライメント関係と、不均衡なデータ分布である。
本稿では,強化学習フレームワークによる意思決定課題として取り上げる。
エージェントを用いて各属性群を識別し,深層Q-ラーニングアルゴリズムを用いて学習する。
論文 参考訳(メタデータ) (2022-05-21T03:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。