論文の概要: Decision Transformer vs. Decision Mamba: Analysing the Complexity of Sequential Decision Making in Atari Games
- arxiv url: http://arxiv.org/abs/2412.00725v1
- Date: Sun, 01 Dec 2024 08:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:29.777078
- Title: Decision Transformer vs. Decision Mamba: Analysing the Complexity of Sequential Decision Making in Atari Games
- Title(参考訳): 決定変換器対決定マンバ:アタリゲームにおける逐次決定の複雑さの分析
- Authors: Ke Yan,
- Abstract要約: 本研究は、強化学習タスクのシーケンスモデリングにおける、DT(Decision Transformer)とDM(Decision Mamba)のパフォーマンスの相違について分析する。
この研究は、DMがBreakoutとQbertのゲームで一般的にDTを上回っ、一方DTはHeroやKung Fu Masterといったより複雑なゲームでより良いパフォーマンスを示した。
- 参考スコア(独自算出の注目度): 3.3320762911316337
- License:
- Abstract: This work analyses the disparity in performance between Decision Transformer (DT) and Decision Mamba (DM) in sequence modelling reinforcement learning tasks for different Atari games. The study first observed that DM generally outperformed DT in the games Breakout and Qbert, while DT performed better in more complicated games, such as Hero and Kung Fu Master. To understand these differences, we expanded the number of games to 12 and performed a comprehensive analysis of game characteristics, including action space complexity, visual complexity, average trajectory length, and average steps to the first non-zero reward. In order to further analyse the key factors that impact the disparity in performance between DT and DM, we employ various approaches, including quantifying visual complexity, random forest regression, correlation analysis, and action space simplification strategies. The results indicate that the performance gap between DT and DM is affected by the complex interaction of multiple factors, with the complexity of the action space and visual complexity (particularly evaluated by compression ratio) being the primary determining factors. DM performs well in environments with simple action and visual elements, while DT shows an advantage in games with higher action and visual complexity. Our findings contribute to a deeper understanding of how the game characteristics affect the performance difference in sequential modelling reinforcement learning, potentially guiding the development of future model design and applications for diverse and complex environments.
- Abstract(参考訳): 本研究では,アタリゲームにおける強化学習タスクのシーケンスモデリングにおいて,DT(Decision Transformer)とDM(Decision Mamba)のパフォーマンスの相違を解析する。
この研究は最初に、DMがBreakoutやQbertで一般的にDTより優れており、一方DTはHeroやKung Fu Masterといったより複雑なゲームでは優れたパフォーマンスを示した。
これらの違いを理解するため,ゲーム数を12に拡大し,アクション空間の複雑さ,視覚的複雑性,平均軌道長,平均ステップなど,ゲーム特性の包括的分析を行った。
DTとDMのパフォーマンスの相違に影響を及ぼす重要な要因を更に分析するために,視覚的複雑性の定量化,ランダムな森林回帰,相関解析,行動空間の簡易化など,様々なアプローチを採用している。
その結果、DTとDMのパフォーマンスギャップは、動作空間の複雑さと視覚的複雑さ(特に圧縮比による評価)が主な要因である複数の要因の複雑な相互作用に影響されていることが示唆された。
DMは単純なアクションと視覚要素を持つ環境ではよく機能するが、DTはアクションと視覚の複雑さが高いゲームでは有利である。
本研究は,ゲーム特性が逐次モデル強化学習における性能差にどのように影響するかを深く理解し,将来モデル設計と多種多様な複雑な環境への応用の指針となる可能性が示唆された。
関連論文リスト
- Causes and Strategies in Multiagent Systems [4.1415148956390935]
並列ゲーム構造として表現されたマルチエージェントシステムモデルを,所定の構造因果モデルに対して体系的に構築する手法を提案する。
得られたいわゆる因果同時ゲーム構造では、遷移は与えられた因果モデルのエージェント変数に対する介入に対応する。
因果ゲーム構造はエージェントの戦略決定による因果的影響の分析と推論を可能にする。
論文 参考訳(メタデータ) (2025-02-19T13:18:42Z) - How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition [64.86360698067764]
本研究は, 教師付き微調整における数学的推論, コード生成, 一般人適応能力間のデータ合成の相互作用に着目した。
我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。
その結果, 合成データの量は, 合成比よりも性能に影響を及ぼすことが示唆された。
論文 参考訳(メタデータ) (2023-10-09T07:56:16Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Co-Learning Empirical Games and World Models [23.800790782022222]
実証ゲームは世界モデルをゲーム力学のより広範な考察へと導く。
世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。
新しいアルゴリズムであるDyna-PSROは、経験ゲームと世界モデルの共同学習である。
論文 参考訳(メタデータ) (2023-05-23T16:37:21Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - DMMG: Dual Min-Max Games for Self-Supervised Skeleton-Based Action
Recognition [25.505897191085353]
そこで本研究では,DMMG(Dual Min-Max Games)を用いた自己教師型骨格行動認識手法を提案する。
我々のDMMGは、視点変化 min-max ゲームとエッジ摂動 min-max ゲームからなる。
提案手法は,広く使用されているNTU-RGB+DおよびNTU120-RGB+Dデータセットにおいて,様々な評価プロトコルにより優れた結果が得られる。
論文 参考訳(メタデータ) (2023-02-22T08:53:11Z) - Probing Transfer in Deep Reinforcement Learning without Task Engineering [26.637254541454773]
深部強化学習エージェントのための異種変換ベンチマークとして,Atari 2600コンソールがサポートするオリジナルゲームキュリキュラの評価を行った。
ゲームデザイナーは、Space Invaders、Breakout、Freewayといったゲームの基本バージョンにいくつかの個別の修正を加えてキュリキュラを作成した。
基本ゲームからそれらのバリエーションへのゼロショット転送は可能であるが、性能のばらつきは要因間の相互作用によって大きく説明される。
論文 参考訳(メタデータ) (2022-10-22T13:40:12Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Efficient Deviation Types and Learning for Hindsight Rationality in
Extensive-Form Games: Corrections [28.215566101115336]
隠れた合理性(Hindsight rationality)は、個々のエージェントに対して非相対的な学習力学を規定する一般サムゲームに対するアプローチである。
我々は、行動偏差を、広義のゲームの構造を尊重する偏差の一般的なクラスとして定式化する。
本稿では,任意の行動偏差に対して後向きの合理性を実現することを目的としたEFRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-24T12:31:14Z) - Pick Your Battles: Interaction Graphs as Population-Level Objectives for
Strategic Diversity [49.68758494467258]
我々は、集団内の個人がどのように相互作用するかを慎重に構造化することで、多様なエージェントの集団を構築する方法について研究する。
我々のアプローチは,エージェント間の情報の流れを制御するインタラクショングラフに基づいている。
マルチエージェント・トレーニングにおける多様性の重要性を証明し,様々な相互作用グラフを適用したゲームにおけるトレーニング・トラジェクトリ,多様性,パフォーマンスに与える影響を解析する。
論文 参考訳(メタデータ) (2021-10-08T11:29:52Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。