論文の概要: TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design
- arxiv url: http://arxiv.org/abs/2506.19997v2
- Date: Wed, 02 Jul 2025 10:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 12:13:55.522193
- Title: TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design
- Title(参考訳): TRACED:環境設計のための共学習性を考慮した遷移認識レギュレット近似
- Authors: Geonwoo Cho, Jaegyun Im, Jihwan Lee, Hojun Yi, Sejin Kim, Sundong Kim,
- Abstract要約: 深い強化学習エージェントを目に見えない環境に一般化することは、依然として大きな課題である。
環境設計のための共学習性を考慮した遷移認識レギュレット近似(TRACED)を提案する。
TRACEDは、複数のベンチマークでゼロショットの一般化を改善しながら、強いベースラインよりも環境相互作用を最大2倍少なくするキュリキュラを生成する。
- 参考スコア(独自算出の注目度): 5.404569468550549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizing deep reinforcement learning agents to unseen environments remains a significant challenge. One promising solution is Unsupervised Environment Design (UED), a co-evolutionary framework in which a teacher adaptively generates tasks with high learning potential, while a student learns a robust policy from this evolving curriculum. Existing UED methods typically measure learning potential via regret, the gap between optimal and current performance, approximated solely by value-function loss. Building on these approaches, we introduce the transition prediction error as an additional term in our regret approximation. To capture how training on one task affects performance on others, we further propose a lightweight metric called co-learnability. By combining these two measures, we present Transition-aware Regret Approximation with Co-learnability for Environment Design (TRACED). Empirical evaluations show that TRACED yields curricula that improve zero-shot generalization across multiple benchmarks while requiring up to 2x fewer environment interactions than strong baselines. Ablation studies confirm that the transition prediction error drives rapid complexity ramp-up and that co-learnability delivers additional gains when paired with the transition prediction error. These results demonstrate how refined regret approximation and explicit modeling of task relationships can be leveraged for sample-efficient curriculum design in UED.
- Abstract(参考訳): 深い強化学習エージェントを目に見えない環境に一般化することは、依然として大きな課題である。
教師は高い学習可能性を持つタスクを適応的に生成し、生徒はこの進化するカリキュラムから堅牢なポリシーを学習する。
既存のUED手法は、通常、値-関数損失のみによって近似された最適性能と現在の性能のギャップである、後悔を通して学習可能性を測定する。
これらのアプローチに基づいて、後悔近似における追加用語として遷移予測誤差を導入する。
タスクのトレーニングが他のタスクのパフォーマンスにどのように影響するかを捉えるために、共学習性と呼ばれる軽量なメトリクスを提案する。
これら2つの指標を組み合わせることで、トランジッション対応レグレット近似と環境設計の共学習性(TRACED)を提案する。
実験的な評価では、TRACEDは強いベースラインよりも環境相互作用を最大2倍少なくしながら、複数のベンチマークでゼロショットの一般化を改善するキュリキュラを生成する。
アブレーション研究は、遷移予測誤差が急激な複雑性上昇を誘導し、遷移予測誤差と組み合わせると、共学習性はさらなる利得をもたらすことを確認した。
これらの結果は, UEDにおける標本効率のよいカリキュラム設計において, 後悔の近似とタスク関係の明示的モデリングがいかに活用できるかを示すものである。
関連論文リスト
- LLM-assisted Semantic Option Discovery for Facilitating Adaptive Deep Reinforcement Learning [23.916253226597956]
深層強化学習(Dep Reinforcement Learning, DRL)は、まだ実用上重要な問題に悩まされている。
最近の研究では、これらの課題に対処するために、LLM(Large Language Models)とシンボリックプランニングを統合することが期待されている。
セマンティック駆動のスキル再利用とリアルタイム制約モニタリングを可能にする,新しいLCM駆動クローズドループフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-02T05:54:02Z) - \ extsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Model Predictive Task Sampling for Efficient and Robust Adaptation [57.414812940406996]
本稿では,タスク空間と適応リスク分布をブリッジするフレームワークであるモデル予測タスクサンプリング(MPTS)を紹介する。
MPTSは、エピソード最適化プロセスの特徴付けに生成モデルを使用し、後部推論によりタスク固有の適応リスクを予測する。
MPTSはゼロショット、少数ショット、教師付き微調整設定にシームレスに統合される。
論文 参考訳(メタデータ) (2025-01-19T13:14:53Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning [2.3558144417896583]
計画問題は、自律運転フレームワークの基本的な側面を構成する。
この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。
VL(on failure)は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:25:18Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Revisiting the Robustness of the Minimum Error Entropy Criterion: A
Transfer Learning Case Study [16.07380451502911]
本稿では,非ガウス雑音に対処する最小誤差エントロピー基準のロバスト性を再考する。
本稿では,分散シフトが一般的である実生活伝達学習回帰タスクの実現可能性と有用性について検討する。
論文 参考訳(メタデータ) (2023-07-17T15:38:11Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Evolving Curricula with Regret-Based Environment Design [37.70275057075986]
我々は、原則化された後悔に基づくカリキュラムで進化の力を活用することを提案する。
我々の手法はエージェントの能力の最前線で常にレベルを発生させることを試みており、その結果、単純から始まるがますます複雑になるキュリキュラが生まれる。
論文 参考訳(メタデータ) (2022-03-02T18:40:00Z) - Perturbed and Strict Mean Teachers for Semi-supervised Semantic
Segmentation [22.5935068122522]
本稿では,平均教師モデルの拡張による一貫性学習手法の予測精度問題に対処する。
このモデルによる正確な予測により、ネットワーク、入力データ、特徴摂動の難しい組み合わせを用いて、一貫性学習の一般化を改善することができる。
ベンチマークの結果,本手法は従来のSOTA法よりも顕著に改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-25T04:30:56Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。