論文の概要: Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization
- arxiv url: http://arxiv.org/abs/2601.12707v1
- Date: Mon, 19 Jan 2026 04:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.752724
- Title: Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization
- Title(参考訳): 競争ゲームにおけるリワードの復号:エントロピー正規化を伴う逆ゲーム理論
- Authors: Junyi Liao, Zihan Zhu, Ethan Fang, Zhuoran Yang, Vahid Tarokh,
- Abstract要約: 本稿では,観察行動から報酬関数を学習するための新しいアルゴリズムを提案する。
我々は,アルゴリズムの信頼性とサンプル効率について,強力な理論的保証を提供する。
- 参考スコア(独自算出の注目度): 52.74762030521324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the unknown reward functions driving agents' behaviors is of central interest in inverse reinforcement learning and game theory. To tackle this problem, we develop a unified framework for reward function recovery in two-player zero-sum matrix games and Markov games with entropy regularization, where we aim to reconstruct the underlying reward functions given observed players' strategies and actions. This task is challenging due to the inherent ambiguity of inverse problems, the non-uniqueness of feasible rewards, and limited observational data coverage. To address these challenges, we establish the reward function's identifiability using the quantal response equilibrium (QRE) under linear assumptions. Building upon this theoretical foundation, we propose a novel algorithm to learn reward functions from observed actions. Our algorithm works in both static and dynamic settings and is adaptable to incorporate different methods, such as Maximum Likelihood Estimation (MLE). We provide strong theoretical guarantees for the reliability and sample efficiency of our algorithm. Further, we conduct extensive numerical studies to demonstrate the practical effectiveness of the proposed framework, offering new insights into decision-making in competitive environments.
- Abstract(参考訳): エージェントの振る舞いを駆動する未知の報酬関数の推定は、逆強化学習とゲーム理論に中心的な関心を持つ。
この問題に対処するため,両プレイヤーのゼロサム行列ゲームとマルコフゲームにおいて,エントロピー正則化による報酬関数回復のための統一的なフレームワークを開発し,観測者の戦略や行動から得られる報酬関数の再構築を目指す。
この課題は、逆問題の本質的な曖昧さ、実現可能な報酬の非特異性、限られた観測データカバレッジによって困難である。
これらの課題に対処するため、線形仮定の下で量子応答平衡(QRE)を用いて報酬関数の識別可能性を確立する。
この理論の基礎の上に構築され、観測された行動から報酬関数を学習する新しいアルゴリズムを提案する。
我々のアルゴリズムは静的な設定と動的設定の両方で動作し、MLE(Maximum Likelihood Estimation)のような様々な手法を組み込むように適応できる。
我々は,アルゴリズムの信頼性とサンプル効率について,強力な理論的保証を提供する。
さらに,提案手法の実践的有効性を示すため,競争環境における意思決定に関する新たな知見を提供するため,広範な数値的研究を行った。
関連論文リスト
- Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Risk-sensitive Reinforcement Learning Based on Convex Scoring Functions [8.758206783988404]
コンベックススコアリング機能を特徴とする多種多様なリスク目標に基づく強化学習フレームワークを提案する。
このクラスは、分散、期待不足、エントロピックなバリュー・アット・リスク、平均リスクユーティリティなど、多くの一般的なリスク対策をカバーしている。
我々は,統計的仲裁取引における金融的応用によるシミュレーション実験におけるアプローチの有効性を検証し,アルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-07T16:31:42Z) - Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment [7.477559660351106]
模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。
本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T07:08:14Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。