論文の概要: Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation
- arxiv url: http://arxiv.org/abs/2601.17923v1
- Date: Sun, 25 Jan 2026 17:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.540556
- Title: Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation
- Title(参考訳): Directed Skill GraphsとSelective AdaptationによるアクションRPGにおけるトランスファー可能なスキルの学習
- Authors: Ali Najar,
- Abstract要約: 生涯のエージェントは、スクラッチからトレーニングしたり、以前に学んだ振る舞いを上書きすることなく、時間とともに能力を広げるべきである。
我々は、戦闘を有向スキルグラフとして表現し、そのコンポーネントを階層的なカリキュラムでトレーニングすることで、挑戦的なリアルタイム制御設定(Dark Souls III)でこれを調査する。
得られたエージェントは、コントロールを5つの再利用可能なスキルに分解する: カメラコントロール、ターゲットロックオン、ムーブメント、ドッジ、そして、それぞれ狭い責任のために最適化された癒し攻撃決定ポリシー。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lifelong agents should expand their competence over time without retraining from scratch or overwriting previously learned behaviors. We investigate this in a challenging real-time control setting (Dark Souls III) by representing combat as a directed skill graph and training its components in a hierarchical curriculum. The resulting agent decomposes control into five reusable skills: camera control, target lock-on, movement, dodging, and a heal-attack decision policy, each optimized for a narrow responsibility. This factorization improves sample efficiency by reducing the burden on any single policy and supports selective post-training: when the environment shifts from Phase 1 to Phase 2, only a subset of skills must be adapted, while upstream skills remain transferable. Empirically, we find that targeted fine-tuning of just two skills rapidly recovers performance under a limited interaction budget, suggesting that skill-graph curricula together with selective fine-tuning offer a practical pathway toward evolving, continually learning agents in complex real-time environments.
- Abstract(参考訳): 生涯のエージェントは、スクラッチからトレーニングしたり、以前に学んだ振る舞いを上書きすることなく、時間とともに能力を広げるべきである。
我々は、戦闘を有向スキルグラフとして表現し、そのコンポーネントを階層的なカリキュラムでトレーニングすることで、挑戦的なリアルタイム制御設定(Dark Souls III)でこれを調査する。
得られたエージェントは、コントロールを5つの再利用可能なスキルに分解する: カメラコントロール、ターゲットロックオン、ムーブメント、ドッジ、そして、それぞれ狭い責任のために最適化された癒し攻撃決定ポリシー。
この因子化は、単一ポリシーの負担を軽減し、選択的な後訓練をサポートすることで、サンプル効率を向上させる。
実験により,2つのスキルを目標とする微調整は,限られた相互作用予算の下で急速に性能を回復させることがわかった。
関連論文リスト
- EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - Policy Compatible Skill Incremental Learning via Lazy Learning Interface [21.376306614046033]
SILは、下流タスクの再利用技術に基づく階層的ポリシーの効率的な取得を容易にする。
スキルレパートリーが進化するにつれて、既存のスキルベースのポリシーとの互換性を損なう可能性がある。
本稿では,スキルと政治の両立を保証する新しいフレームワークであるSIL-Cを提案する。
論文 参考訳(メタデータ) (2025-09-24T23:34:01Z) - FAST: Similarity-based Knowledge Transfer for Efficient Policy Learning [57.4737157531239]
Transfer Learningは、タスク間で知識を伝達することで学習を加速する能力を提供する。
これは、負の転送、ドメイン適応、ソリッドソースポリシーの選択における非効率といった重要な課題に直面します。
本研究では,知識伝達の改善,タスク間のパフォーマンスの促進,計算コストの削減など,TLの課題に挑戦する。
論文 参考訳(メタデータ) (2025-07-27T22:21:53Z) - Dynamic Contrastive Skill Learning with State-Transition Based Skill Clustering and Dynamic Length Adjustment [14.458170645422564]
本稿では,スキル表現と学習を再定義する新しいフレームワークである動的コントラストスキル学習(DCSL)を提案する。
DCSLは、状態遷移に基づくスキル表現、スキル類似度関数学習、動的スキル長調整の3つの主要なアイデアを導入している。
提案手法は,特に複雑なデータセットやノイズの多いデータセットにおいて,より柔軟で適応的なスキル抽出を可能にし,既存のタスク完了と効率の手法と比較して,競争力のある性能を示す。
論文 参考訳(メタデータ) (2025-04-21T02:11:39Z) - Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning [39.991887534269445]
Disentangled Unsupervised Skill Discovery (DUSDi) は、下流の課題を解決するために効率的に再利用できる非角スキルの学習方法である。
DUSDiはスキルを切り離したコンポーネントに分解し、各スキルコンポーネントは状態空間の1つの要素にのみ影響する。
DUSDiは、障害のあるスキルをうまく学習し、下流タスクの解決に学習したスキルを適用するという点で、従来のスキル発見方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-10-15T04:13:20Z) - C$\cdot$ASE: Learning Conditional Adversarial Skill Embeddings for
Physics-based Characters [49.83342243500835]
C$cdot$ASEは、物理系文字に対する条件付き適応スキル埋め込みを学習する効率的なフレームワークである。
C$cdot$ASEは、不均一なスキルモーションを、低レベル条件モデルのトレーニングのための均質なサンプルを含む別個のサブセットに分割する。
スキル条件の模倣学習は、訓練後のキャラクターのスキルを明確に制御する。
論文 参考訳(メタデータ) (2023-09-20T14:34:45Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Unsupervised Domain Adaptation with Dynamics-Aware Rewards in
Reinforcement Learning [28.808933152885874]
無条件強化学習は、事前の目標表現なしでスキルを獲得することを目的としている。
別の相互作用に富んだ環境でのトレーニングの直感的なアプローチは、ターゲット環境におけるトレーニングスキルを阻害する。
本稿では,動的にスキルを習得するための教師なしドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-25T14:40:48Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。