論文の概要: Contextual Latent World Models for Offline Meta Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.02935v1
- Date: Tue, 03 Mar 2026 12:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.791873
- Title: Contextual Latent World Models for Offline Meta Reinforcement Learning
- Title(参考訳): オフラインメタ強化学習のための文脈潜在世界モデル
- Authors: Mohammadreza Nakheai, Aidan Scannell, Kevin Luck, Joni Pajarinen,
- Abstract要約: 本研究では、文脈潜在世界モデルを導入し、推論されたタスク表現に潜在世界モデルを条件付けし、文脈エンコーダと共同で学習する。
これはタスク条件の時間的一貫性を強制し、タスク依存のダイナミクスをキャプチャするタスク表現を生成する。
提案手法はより表現力のあるタスク表現を学習し,MuJoCo,Contextual-DeepMind Control,Meta-Worldベンチマークにまたがる未確認タスクへの一般化を大幅に改善する。
- 参考スコア(独自算出の注目度): 17.917947576971816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline meta-reinforcement learning seeks to learn policies that generalize across related tasks from fixed datasets. Context-based methods infer a task representation from transition histories, but learning effective task representations without supervision remains a challenge. In parallel, latent world models have demonstrated strong self-supervised representation learning through temporal consistency. We introduce contextual latent world models, which condition latent world models on inferred task representations and train them jointly with the context encoder. This enforces task-conditioned temporal consistency, yielding task representations that capture task-dependent dynamics rather than merely discriminating between tasks. Our method learns more expressive task representations and significantly improves generalization to unseen tasks across MuJoCo, Contextual-DeepMind Control, and Meta-World benchmarks.
- Abstract(参考訳): オフラインのメタ強化学習は、特定のデータセットから関連するタスクをまたいで一般化するポリシーを学習しようとする。
コンテキストベースのメソッドは、遷移履歴からタスク表現を推測するが、監督なしで効果的なタスク表現を学ぶことは依然として困難である。
並行して、潜在世界モデルは時間的一貫性を通して強力な自己教師付き表現学習を実証している。
本研究では、文脈潜在世界モデルを導入し、推論されたタスク表現に潜在世界モデルを条件付けし、文脈エンコーダと共同で学習する。
これはタスク条件の時間的一貫性を強制し、単にタスクを区別するのではなく、タスク依存のダイナミクスをキャプチャするタスク表現を生成する。
提案手法はより表現力のあるタスク表現を学習し,MuJoCo,Contextual-DeepMind Control,Meta-Worldベンチマークにまたがる未確認タスクへの一般化を大幅に改善する。
関連論文リスト
- VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。
VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。
グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文 参考訳(メタデータ) (2025-04-10T17:59:42Z) - Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Task-Aware Virtual Training: Enhancing Generalization in Meta-Reinforcement Learning for Out-of-Distribution Tasks [4.374837991804085]
Task-Aware Virtual Training (TAVT)は、トレーニングとアウト・オブ・ディストリビューション(OOD)シナリオの両方のタスク特性をキャプチャする新しいアルゴリズムである。
数値計算の結果,TAVT は様々な MuJoCo および MetaWorld 環境における OOD タスクの一般化を著しく促進することが示された。
論文 参考訳(メタデータ) (2025-02-05T02:31:50Z) - Entropy Regularized Task Representation Learning for Offline Meta-Reinforcement Learning [12.443661471796595]
オフラインのメタ強化学習は、エージェントに異なるタスクのセットからのデータに基づいてトレーニングすることで、新しいタスクに迅速に適応する能力を持たせることを目的としている。
コンテキストベースのアプローチでは、状態-アクション-リワード遷移の履歴を利用して現在のタスクの表現を推測し、タスク表現に対してエージェント、すなわちポリシーと値関数を条件付ける。
残念ながら、オフラインデータのコンテキストはテスト時にコンテキストと一致しないため、コンテキストベースのアプローチは配布ミスマッチに悩まされる。
論文 参考訳(メタデータ) (2024-12-19T13:24:01Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Unsupervised Meta-Learning via In-Context Learning [3.4165401459803335]
本稿では,教師なしメタ学習における教師なしメタ学習の一般化能力を活用した新しい手法を提案する。
提案手法は,メタラーニングをシーケンスモデリング問題として再設計し,トランスフォーマーエンコーダがサポート画像からタスクコンテキストを学習できるようにする。
論文 参考訳(メタデータ) (2024-05-25T08:29:46Z) - One-shot Imitation in a Non-Stationary Environment via Multi-Modal Skill [6.294766893350108]
本稿では,ワンショット模倣とゼロショット適応が可能なスキルベース模倣学習フレームワークを提案する。
視覚言語モデルを利用して、オフラインのビデオデータセットから設定したセマンティックスキルを学習する。
拡張された多段階のメタワールドタスクに対して,様々なワンショットの模倣シナリオでフレームワークを評価した。
論文 参考訳(メタデータ) (2024-02-13T11:01:52Z) - Task Aware Dreamer for Task Generalization in Reinforcement Learning [31.364276322513447]
一般的な世界モデルのトレーニングは、タスクにおいて同様の構造を活用でき、より一般化可能なエージェントのトレーニングに役立つことを示す。
本稿では,タスク間の遅延特性を識別するために,報酬インフォームド機能を統合するタスク・アウェア・ドリーマー (TAD) という新しい手法を提案する。
画像ベースのタスクと状態ベースのタスクの両方の実験は、TADが異なるタスクを同時に処理するパフォーマンスを大幅に改善できることを示している。
論文 参考訳(メタデータ) (2023-03-09T08:04:16Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language
Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。
これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文 参考訳(メタデータ) (2022-08-19T02:46:20Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。