論文の概要: TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design
- arxiv url: http://arxiv.org/abs/2506.19997v1
- Date: Tue, 24 Jun 2025 20:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.528476
- Title: TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design
- Title(参考訳): TRACED:環境設計のための共学習性を考慮した遷移認識レギュレット近似
- Authors: Geonwoo Cho, Jaegyun Im, Jihwan Lee, Hojun Yi, Sejin Kim, Sundong Kim,
- Abstract要約: 深い強化学習エージェントを目に見えない環境に一般化することは、依然として大きな課題である。
環境設計のための共学習性を考慮した遷移認識レギュレット近似(TRACED)を提案する。
TRACEDは、複数のベンチマークでゼロショットの一般化を改善しながら、強いベースラインよりも環境相互作用を最大2倍少なくするキュリキュラを生成する。
- 参考スコア(独自算出の注目度): 5.404569468550549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizing deep reinforcement learning agents to unseen environments remains a significant challenge. One promising solution is Unsupervised Environment Design (UED), a co-evolutionary framework in which a teacher adaptively generates tasks with high learning potential, while a student learns a robust policy from this evolving curriculum. Existing UED methods typically measure learning potential via regret, the gap between optimal and current performance, approximated solely by value-function loss. Building on these approaches, we introduce the transition prediction error as an additional term in our regret approximation. To capture how training on one task affects performance on others, we further propose a lightweight metric called co-learnability. By combining these two measures, we present Transition-aware Regret Approximation with Co-learnability for Environment Design (TRACED). Empirical evaluations show that TRACED yields curricula that improve zero-shot generalization across multiple benchmarks while requiring up to 2x fewer environment interactions than strong baselines. Ablation studies confirm that the transition prediction error drives rapid complexity ramp-up and that co-learnability delivers additional gains when paired with the transition prediction error. These results demonstrate how refined regret approximation and explicit modeling of task relationships can be leveraged for sample-efficient curriculum design in UED.
- Abstract(参考訳): 深い強化学習エージェントを目に見えない環境に一般化することは、依然として大きな課題である。
教師は高い学習可能性を持つタスクを適応的に生成し、生徒はこの進化するカリキュラムから堅牢なポリシーを学習する。
既存のUED手法は、通常、値-関数損失のみによって近似された最適性能と現在の性能のギャップである、後悔を通して学習可能性を測定する。
これらのアプローチに基づいて、後悔近似における追加用語として遷移予測誤差を導入する。
タスクのトレーニングが他のタスクのパフォーマンスにどのように影響するかを捉えるために、共学習性と呼ばれる軽量なメトリクスを提案する。
これら2つの指標を組み合わせることで、トランジッション対応レグレット近似と環境設計の共学習性(TRACED)を提案する。
実験的な評価では、TRACEDは強いベースラインよりも環境相互作用を最大2倍少なくしながら、複数のベンチマークでゼロショットの一般化を改善するキュリキュラを生成する。
アブレーション研究は、遷移予測誤差が急激な複雑性上昇を誘導し、遷移予測誤差と組み合わせると、共学習性はさらなる利得をもたらすことを確認した。
これらの結果は, UEDにおける標本効率のよいカリキュラム設計において, 後悔の近似とタスク関係の明示的モデリングがいかに活用できるかを示すものである。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning [2.3558144417896583]
計画問題は、自律運転フレームワークの基本的な側面を構成する。
この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。
VL(on failure)は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:25:18Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Perturbed and Strict Mean Teachers for Semi-supervised Semantic
Segmentation [22.5935068122522]
本稿では,平均教師モデルの拡張による一貫性学習手法の予測精度問題に対処する。
このモデルによる正確な予測により、ネットワーク、入力データ、特徴摂動の難しい組み合わせを用いて、一貫性学習の一般化を改善することができる。
ベンチマークの結果,本手法は従来のSOTA法よりも顕著に改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-25T04:30:56Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。