論文の概要: Learning Representations in Video Game Agents with Supervised Contrastive Imitation Learning
- arxiv url: http://arxiv.org/abs/2509.11880v1
- Date: Mon, 15 Sep 2025 13:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.293478
- Title: Learning Representations in Video Game Agents with Supervised Contrastive Imitation Learning
- Title(参考訳): 教師付きコントラスト模倣学習によるゲームエージェントの学習表現
- Authors: Carlos Celemin, Joseph Brennan, Pierluigi Vito Amadori, Tim Bradley,
- Abstract要約: 本稿では,教師付きコントラスト学習(SupCon)のイミテーション学習(IL)への応用について紹介する。
目標は、アクション関連因子をよりよく捉えた観測結果の潜在表現を得ることである。
Astro BotとReturnalの3Dゲームおよび複数の2Dアタリゲームの実験では、表現品質の向上、学習収束の高速化、一般化の向上が示されている。
- 参考スコア(独自算出の注目度): 0.6299766708197881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel application of Supervised Contrastive Learning (SupCon) to Imitation Learning (IL), with a focus on learning more effective state representations for agents in video game environments. The goal is to obtain latent representations of the observations that capture better the action-relevant factors, thereby modeling better the cause-effect relationship from the observations that are mapped to the actions performed by the demonstrator, for example, the player jumps whenever an obstacle appears ahead. We propose an approach to integrate the SupCon loss with continuous output spaces, enabling SupCon to operate without constraints regarding the type of actions of the environment. Experiments on the 3D games Astro Bot and Returnal, and multiple 2D Atari games show improved representation quality, faster learning convergence, and better generalization compared to baseline models trained only with supervised action prediction loss functions.
- Abstract(参考訳): 本稿では,コンピュータゲーム環境におけるエージェントの状態表現をより効果的に学習することを目的とした,SupCon(Supervised Contrastive Learning)のImitation Learning(IL)への応用について紹介する。
目的は、アクション関連因子をよりよく捉え、例えば、プレイヤーが前方に障害物が現れるたびにジャンプするなど、ディモンストレーターによって実行されるアクションにマッピングされた観察から、より優れた原因影響関係をモデル化することである。
本研究では,SupConの損失を連続的な出力空間に統合する手法を提案する。
Astro BotとReturnalの3Dゲームおよび複数の2Dアタリゲームの実験では、教師ありアクション予測損失関数のみを訓練したベースラインモデルと比較して、表現品質の向上、学習収束の高速化、一般化が向上した。
関連論文リスト
- Playpen: An Environment for Exploring Learning Through Conversational Interaction [81.67330926729015]
本研究は,対話ゲームが学習のフィードバック信号の源として機能するかどうかを考察する。
本稿では,対話ゲームによるオフラインおよびオンライン学習環境であるPlaypenを紹介する。
SFTによる模倣学習は、目に見えないインスタンスのパフォーマンスを向上させるが、他のスキルに悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-11T14:49:33Z) - Prompted Contrast with Masked Motion Modeling: Towards Versatile 3D
Action Representation Learning [33.68311764817763]
本稿では,多目的な3次元動作表現学習のためのMasked Motion Modeling(PCM$rm 3$)を用いたPrompted Contrastを提案する。
提案手法は,比較学習とマスク付き予測タスクを相互に有益な方法で統合する。
3つの大規模データセットに基づく5つの下流タスクのテストを行い、最先端の作業と比較してPCM$rm 3$の優れた一般化能力を実証した。
論文 参考訳(メタデータ) (2023-08-08T01:27:55Z) - DCT: Dual Channel Training of Action Embeddings for Reinforcement
Learning with Large Discrete Action Spaces [4.168157981135697]
本稿では,アクション埋め込みを効果的に学習する新しいフレームワークを提案する。
我々は、トレーニングされたデコーダと標準強化学習アルゴリズムを併用して、埋め込み空間でアクションを生成する。
実験の結果、モデルがよりクリーンなアクション埋め込みをもたらすことが示され、改善された表現は、より早い収束でより良いポリシーを学ぶのに役立つ。
論文 参考訳(メタデータ) (2023-06-28T04:32:09Z) - PointACL:Adversarial Contrastive Learning for Robust Point Clouds
Representation under Adversarial Attack [73.3371797787823]
逆比較学習(Adversarial contrastive learning, ACL)は、事前学習されたモデルの堅牢性を改善する効果的な方法と考えられている。
本稿では,自己指導型コントラスト学習フレームワークを逆向きに学習するために,ロバストな認識損失関数を提案する。
提案手法であるPointACLを,複数のデータセットを用いた3次元分類と3次元分割を含む下流タスクで検証する。
論文 参考訳(メタデータ) (2022-09-14T22:58:31Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文 参考訳(メタデータ) (2020-02-21T05:43:34Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。