論文の概要: Structure Detection for Contextual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.08120v1
- Date: Tue, 13 Jan 2026 01:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.002419
- Title: Structure Detection for Contextual Reinforcement Learning
- Title(参考訳): 文脈強化学習のための構造検出
- Authors: Tianyue Zhou, Jung-Hoon Cho, Cathy Wu,
- Abstract要約: コンテキスト強化学習(Contextual Reinforcement Learning)は、コンテキスト変数によって異なる関連するコンテキストマルコフ決定プロセス(CMDP)の集合を解決する問題に取り組む。
従来のアプローチ – 非依存的なトレーニングとマルチタスク学習 – は、過剰な計算コストや負の転送に対処する。
本稿では,CMDPの基盤となる一般化構造を動的に識別し,適切なMBTLアルゴリズムを選択する汎用フレームワークであるStructure Detection MBTLを紹介する。
- 参考スコア(独自算出の注目度): 6.56045575313744
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Contextual Reinforcement Learning (CRL) tackles the problem of solving a set of related Contextual Markov Decision Processes (CMDPs) that vary across different context variables. Traditional approaches--independent training and multi-task learning--struggle with either excessive computational costs or negative transfer. A recently proposed multi-policy approach, Model-Based Transfer Learning (MBTL), has demonstrated effectiveness by strategically selecting a few tasks to train and zero-shot transfer. However, CMDPs encompass a wide range of problems, exhibiting structural properties that vary from problem to problem. As such, different task selection strategies are suitable for different CMDPs. In this work, we introduce Structure Detection MBTL (SD-MBTL), a generic framework that dynamically identifies the underlying generalization structure of CMDP and selects an appropriate MBTL algorithm. For instance, we observe Mountain structure in which generalization performance degrades from the training performance of the target task as the context difference increases. We thus propose M/GP-MBTL, which detects the structure and adaptively switches between a Gaussian Process-based approach and a clustering-based approach. Extensive experiments on synthetic data and CRL benchmarks--covering continuous control, traffic control, and agricultural management--show that M/GP-MBTL surpasses the strongest prior method by 12.49% on the aggregated metric. These results highlight the promise of online structure detection for guiding source task selection in complex CRL environments.
- Abstract(参考訳): コンテキスト強化学習(CRL)は、コンテキスト変数によって異なる関連するコンテキストマルコフ決定プロセス(CMDP)の集合を解決する問題に取り組む。
従来のアプローチ – 非依存的なトレーニングとマルチタスク学習 – は、過剰な計算コストと負の転送を併用する。
最近提案されたマルチ政治手法であるモデルベーストランスファーラーニング(MBTL)は、トレーニングのためのいくつかのタスクとゼロショットトランスファーを戦略的に選択することで効果を実証している。
しかし、CMDPは幅広い問題を含み、問題によって異なる構造特性を示す。
このように、異なるタスク選択戦略は異なるCMDPに適合する。
本研究では,CMDPの基盤となる一般化構造を動的に識別し,適切なMBTLアルゴリズムを選択する汎用フレームワークであるStructure Detection MBTL(SD-MBTL)を紹介する。
例えば、状況差が大きくなるにつれて、対象タスクのトレーニング性能から一般化性能が低下するマウンテン構造を観察する。
そこで本稿では,ガウス過程に基づくアプローチとクラスタリングに基づくアプローチを適応的に切り替えるM/GP-MBTLを提案する。
総合データとCRLベンチマークの広範囲な実験 - 連続的な制御、交通制御、農業管理 - により、M/GP-MBTLは、集計されたメートル法で12.49%の差で最強の手法を上回っていることが示されている。
これらの結果は、複雑なCRL環境におけるソースタスク選択を導くためのオンライン構造検出の可能性を浮き彫りにしている。
関連論文リスト
- CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - cMALC-D: Contextual Multi-Agent LLM-Guided Curriculum Learning with Diversity-Based Context Blending [3.939989712024268]
コンテキストMARL(cMARL)は、コンテキスト変数で環境をパラメータ化し、コンテキストに依存しないポリシーをトレーニングすることでこの問題に対処する。
既存のcMARLメソッドは、カリキュラム学習を使用して、文脈に依存しないポリシーを訓練し評価する。
多様性に基づくコンテキストブレンディング(cMALC-D)を用いたマルチエージェントLLM指導カリキュラム学習を提案する。
論文 参考訳(メタデータ) (2025-08-28T14:16:17Z) - Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Hierarchical Decision Making Based on Structural Information Principles [19.82391136775341]
本稿では,階層的意思決定のための構造情報原則に基づく新しいフレームワーク,すなわちSIDMを提案する。
本稿では,過去の状態-行動軌跡を処理し,状態と行動の抽象表現を構築する抽象化機構を提案する。
単エージェントシナリオのためのスキルベース学習手法と,多エージェントシナリオのためのロールベースの協調手法を開発し,そのどちらも,パフォーマンス向上のために様々な基礎アルゴリズムを柔軟に統合することができる。
論文 参考訳(メタデータ) (2024-04-15T13:02:00Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。