論文の概要: Target Return Optimizer for Multi-Game Decision Transformer
- arxiv url: http://arxiv.org/abs/2503.02311v1
- Date: Tue, 04 Mar 2025 06:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:14.738254
- Title: Target Return Optimizer for Multi-Game Decision Transformer
- Title(参考訳): マルチゲーム決定変換器のターゲットリターン最適化
- Authors: Kensuke Tatematsu, Akifumi Wachi,
- Abstract要約: Multi-Game Target Return RL (MTRO) は、Multi-Game Decision Transformerフレームワーク内で、ゲーム固有のターゲットリターンを自律的に決定する。
MTROは追加のトレーニングを必要とせず、既存のマルチゲーム決定変換アーキテクチャへのシームレスな統合を可能にする。
- 参考スコア(独自算出の注目度): 5.684409853507594
- License:
- Abstract: Achieving autonomous agents with robust generalization capabilities across diverse games and tasks remains one of the ultimate goals in AI research. Recent advancements in transformer-based offline reinforcement learning, exemplified by the MultiGame Decision Transformer [Lee et al., 2022], have shown remarkable performance across various games or tasks. However, these approaches depend heavily on human expertise, presenting substantial challenges for practical deployment, particularly in scenarios with limited prior game-specific knowledge. In this paper, we propose an algorithm called Multi-Game Target Return Optimizer (MTRO) to autonomously determine game-specific target returns within the Multi-Game Decision Transformer framework using solely offline datasets. MTRO addresses the existing limitations by automating the target return configuration process, leveraging environmental reward information extracted from offline datasets. Notably, MTRO does not require additional training, enabling seamless integration into existing Multi-Game Decision Transformer architectures. Our experimental evaluations on Atari games demonstrate that MTRO enhances the performance of RL policies across a wide array of games, underscoring its potential to advance the field of autonomous agent development.
- Abstract(参考訳): 多様なゲームやタスクにまたがって、堅牢な一般化能力を持つ自律エージェントを獲得することは、AI研究の最終的な目標の1つだ。
マルチゲーム決定変換器(Lee et al , 2022)で実証された, 変圧器を用いたオフライン強化学習の最近の進歩は, 様々なゲームやタスクにおいて顕著な性能を示している。
しかしながら、これらのアプローチは人間の専門知識に大きく依存しており、特にゲーム固有の知識が限定されたシナリオにおいて、実践的な展開において重大な課題を提示している。
本稿では,Multi-Game Target Return Optimizer (MTRO) と呼ばれるアルゴリズムを提案する。
MTROは、オフラインデータセットから抽出された環境報酬情報を活用することにより、ターゲット戻り設定プロセスを自動化することで、既存の制限に対処する。
特に、MTROは追加のトレーニングを必要とせず、既存のマルチゲーム決定変換アーキテクチャへのシームレスな統合を可能にする。
Atariゲームに対する実験評価では、MTROは多種多様なゲームにおけるRLポリシーの性能を高め、自律エージェント開発を前進させる可能性を示している。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Advances in Transformers for Robotic Applications: A Review [0.9208007322096533]
我々は、ロボティクスにおけるトランスフォーマーの最近の進歩とトレンドを概観する。
自律システムにおけるロボット認識,計画,制御への統合について検討する。
信頼性の高い計画と知覚のために、トランスフォーマーの異なるバリエーションがロボティクスにどのように適応されているかについて議論する。
論文 参考訳(メタデータ) (2024-12-13T23:02:15Z) - AMAGO-2: Breaking the Multi-Task Barrier in Meta-Reinforcement Learning with Transformers [28.927809804613215]
我々はTransformerベースの(コンテキスト内での)メタRLの最近の進歩の上に構築する。
エージェントのアクターと批評家の目的の両方を分類項に変換する、単純でスケーラブルなソリューションを評価する。
この設計は、明示的なタスクラベルを使わずに、オンラインマルチタスク適応とメモリ問題に大きな進歩をもたらす。
論文 参考訳(メタデータ) (2024-11-17T22:25:40Z) - Solving Multi-Goal Robotic Tasks with Decision Transformer [0.0]
ロボット工学におけるオフラインマルチゴール強化学習のための決定変換器アーキテクチャの新しい適応法を提案する。
われわれのアプローチでは、ゴール固有の情報を意思決定変換器に統合し、オフライン環境で複雑なタスクを処理できる。
論文 参考訳(メタデータ) (2024-10-08T20:35:30Z) - Tiny Multi-Agent DRL for Twins Migration in UAV Metaverses: A Multi-Leader Multi-Follower Stackelberg Game Approach [57.15309977293297]
無人航空機(UAV)とメタバースの相乗効果は、UAVメタバースと呼ばれる新しいパラダイムを生み出している。
本稿では,UAVメタバースにおける効率的なUTマイグレーションのためのプルーニング技術に基づく,機械学習に基づく小さなゲームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T02:14:13Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Probing Transfer in Deep Reinforcement Learning without Task Engineering [26.637254541454773]
深部強化学習エージェントのための異種変換ベンチマークとして,Atari 2600コンソールがサポートするオリジナルゲームキュリキュラの評価を行った。
ゲームデザイナーは、Space Invaders、Breakout、Freewayといったゲームの基本バージョンにいくつかの個別の修正を加えてキュリキュラを作成した。
基本ゲームからそれらのバリエーションへのゼロショット転送は可能であるが、性能のばらつきは要因間の相互作用によって大きく説明される。
論文 参考訳(メタデータ) (2022-10-22T13:40:12Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。