論文の概要: Urban-Focused Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing
- arxiv url: http://arxiv.org/abs/2406.14054v1
- Date: Thu, 20 Jun 2024 07:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 15:00:17.611716
- Title: Urban-Focused Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing
- Title(参考訳): コントラストデータ共有による都市型マルチタスクオフライン強化学習
- Authors: Xinbo Zhao, Yingxue Zhang, Xin Zhang, Yu Yang, Yiqun Xie, Yanhua Li, Jun Luo,
- Abstract要約: コントラストデータ共有アプローチを用いたマルチタスクオフライン強化学習であるMODAを紹介する。
我々は,新しいモデルベースマルチタスクオフラインRLアルゴリズムを開発した。
実世界のマルチタスク都市環境における実験により,MODAの有効性が検証された。
- 参考スコア(独自算出の注目度): 19.139077084857487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing diverse human decision-making processes in an urban environment is a critical issue across various applications, including ride-sharing vehicle dispatching, public transportation management, and autonomous driving. Offline reinforcement learning (RL) is a promising approach to learn and optimize human urban strategies (or policies) from pre-collected human-generated spatial-temporal urban data. However, standard offline RL faces two significant challenges: (1) data scarcity and data heterogeneity, and (2) distributional shift. In this paper, we introduce MODA -- a Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing approach. MODA addresses the challenges of data scarcity and heterogeneity in a multi-task urban setting through Contrastive Data Sharing among tasks. This technique involves extracting latent representations of human behaviors by contrasting positive and negative data pairs. It then shares data presenting similar representations with the target task, facilitating data augmentation for each task. Moreover, MODA develops a novel model-based multi-task offline RL algorithm. This algorithm constructs a robust Markov Decision Process (MDP) by integrating a dynamics model with a Generative Adversarial Network (GAN). Once the robust MDP is established, any online RL or planning algorithm can be applied. Extensive experiments conducted in a real-world multi-task urban setting validate the effectiveness of MODA. The results demonstrate that MODA exhibits significant improvements compared to state-of-the-art baselines, showcasing its capability in advancing urban decision-making processes. We also made our code available to the research community.
- Abstract(参考訳): 都市環境における多様な人的意思決定プロセスの強化は、配車サービス、公共交通機関の管理、自動運転など、様々な応用において重要な課題である。
オフライン強化学習(英: Offline reinforcement learning, RL)は、事前収集した人為的空間時間的都市データから人間の都市戦略(または政策)を学習し、最適化するための有望なアプローチである。
しかし、標準オフラインRLは、(1)データの不足とデータの均一性、(2)分散シフトの2つの大きな課題に直面している。
本稿では,Multi-Task Offline Reinforcement Learning with Contrastive Data Sharingアプローチを紹介する。
MODAは、タスク間のContrastive Data Sharingを通じて、マルチタスクの都市環境でのデータ不足と不均一性の課題に対処する。
この手法は、正と負のデータペアを対比することにより、人間の行動の潜在表現を抽出する。
次に、ターゲットタスクに類似した表現を示すデータを共有し、各タスクに対するデータ拡張を容易にする。
さらに、MODAは、新しいモデルベースのマルチタスクオフラインRLアルゴリズムを開発した。
このアルゴリズムは、動的モデルとGAN(Generative Adversarial Network)を統合することにより、ロバストなマルコフ決定プロセス(MDP)を構築する。
堅牢なMDPが確立されると、オンラインのRLや計画アルゴリズムを適用することができる。
実世界のマルチタスク都市環境で行った大規模な実験により,MODAの有効性が検証された。
その結果、MODAは最先端のベースラインに比べて大幅に改善され、都市意思決定プロセスの進展におけるその能力を示すことが示された。
コードもリサーチコミュニティに公開しました。
関連論文リスト
- Collaborative Imputation of Urban Time Series through Cross-city Meta-learning [54.438991949772145]
メタ学習型暗黙的ニューラル表現(INR)を利用した新しい協調的計算パラダイムを提案する。
次に,モデルに依存しないメタ学習による都市間協調学習手法を提案する。
20のグローバル都市から得られた多様な都市データセットの実験は、我々のモデルの優れた計算性能と一般化可能性を示している。
論文 参考訳(メタデータ) (2025-01-20T07:12:40Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
本稿では,自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mambaを提案する。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - MEL: Efficient Multi-Task Evolutionary Learning for High-Dimensional
Feature Selection [11.934379476825551]
PSOに基づくマルチタスク進化学習(MEL)という新しい手法を提案する。
異なる特徴選択タスク間での情報共有を組み込むことで、MELは学習能力と効率を向上させる。
我々は、22個の高次元データセットに対する広範囲な実験を通して、MELの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-14T06:51:49Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - A Transformer Framework for Data Fusion and Multi-Task Learning in Smart
Cities [99.56635097352628]
本稿では,新興スマートシティを対象としたトランスフォーマーベースのAIシステムを提案する。
ほぼ全ての入力データと出力タスクタイプをサポートし、現在のS&CCをサポートする。
S&CC環境を代表する多様なタスクセットを学習して実演する。
論文 参考訳(メタデータ) (2022-11-18T20:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。