論文の概要: TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design
- arxiv url: http://arxiv.org/abs/2506.19997v3
- Date: Thu, 25 Sep 2025 15:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:55.926693
- Title: TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design
- Title(参考訳): TRACED:環境設計のための共学習性を考慮した遷移認識レギュレット近似
- Authors: Geonwoo Cho, Jaegyun Im, Jihwan Lee, Hojun Yi, Sejin Kim, Sundong Kim,
- Abstract要約: 深い強化学習エージェントを目に見えない環境に一般化することは、依然として大きな課題である。
有望な解決策の1つは、教師が高い学習可能性を持つタスクを適応的に生成する共進化的フレームワークであるUnsupervised Environment Design (UED)である。
環境設計のための共学習性を考慮した遷移認識レギュレット近似(TRACED)を提案する。
- 参考スコア(独自算出の注目度): 5.0493593385760756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizing deep reinforcement learning agents to unseen environments remains a significant challenge. One promising solution is Unsupervised Environment Design (UED), a co-evolutionary framework in which a teacher adaptively generates tasks with high learning potential, while a student learns a robust policy from this evolving curriculum. Existing UED methods typically measure learning potential via regret, the gap between optimal and current performance, approximated solely by value-function loss. Building on these approaches, we introduce the transition-prediction error as an additional term in our regret approximation. To capture how training on one task affects performance on others, we further propose a lightweight metric called Co-Learnability. By combining these two measures, we present Transition-aware Regret Approximation with Co-learnability for Environment Design (TRACED). Empirical evaluations show that TRACED produces curricula that improve zero-shot generalization over strong baselines across multiple benchmarks. Ablation studies confirm that the transition-prediction error drives rapid complexity ramp-up and that Co-Learnability delivers additional gains when paired with the transition-prediction error. These results demonstrate how refined regret approximation and explicit modeling of task relationships can be leveraged for sample-efficient curriculum design in UED. Project Page: https://geonwoo.me/traced/
- Abstract(参考訳): 深い強化学習エージェントを目に見えない環境に一般化することは、依然として大きな課題である。
教師は高い学習可能性を持つタスクを適応的に生成し、生徒はこの進化するカリキュラムから堅牢なポリシーを学習する。
既存のUED手法は、通常、値-関数損失のみによって近似された最適性能と現在の性能のギャップである、後悔を通して学習可能性を測定する。
これらのアプローチに基づいて、後悔の近似における追加用語として遷移予測誤差を導入する。
タスクのトレーニングが他のタスクのパフォーマンスに与える影響を捉えるために、Co-Learnabilityと呼ばれる軽量なメトリクスを提案する。
これら2つの指標を組み合わせることで、トランジッション対応レグレット近似と環境設計の共学習性(TRACED)を提案する。
実験的な評価は、TRACEDが複数のベンチマークで強いベースライン上でゼロショットの一般化を改善するためのカリキュラムを生成することを示している。
アブレーション研究は、遷移予測誤差が急激な複雑性の上昇を招き、遷移予測誤差と組み合わせると、Co-Learnabilityがさらなる利得をもたらすことを確認した。
これらの結果は, UEDにおける標本効率のよいカリキュラム設計において, 後悔の近似とタスク関係の明示的モデリングがいかに活用できるかを示すものである。
Project Page: https://geonwoo.me/traced/
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning [2.3558144417896583]
計画問題は、自律運転フレームワークの基本的な側面を構成する。
この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。
VL(on failure)は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:25:18Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Revisiting the Robustness of the Minimum Error Entropy Criterion: A
Transfer Learning Case Study [16.07380451502911]
本稿では,非ガウス雑音に対処する最小誤差エントロピー基準のロバスト性を再考する。
本稿では,分散シフトが一般的である実生活伝達学習回帰タスクの実現可能性と有用性について検討する。
論文 参考訳(メタデータ) (2023-07-17T15:38:11Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Perturbed and Strict Mean Teachers for Semi-supervised Semantic
Segmentation [22.5935068122522]
本稿では,平均教師モデルの拡張による一貫性学習手法の予測精度問題に対処する。
このモデルによる正確な予測により、ネットワーク、入力データ、特徴摂動の難しい組み合わせを用いて、一貫性学習の一般化を改善することができる。
ベンチマークの結果,本手法は従来のSOTA法よりも顕著に改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-25T04:30:56Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。