論文の概要: Urban-Focused Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing
- arxiv url: http://arxiv.org/abs/2406.14054v1
- Date: Thu, 20 Jun 2024 07:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 15:00:17.611716
- Title: Urban-Focused Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing
- Title(参考訳): コントラストデータ共有による都市型マルチタスクオフライン強化学習
- Authors: Xinbo Zhao, Yingxue Zhang, Xin Zhang, Yu Yang, Yiqun Xie, Yanhua Li, Jun Luo,
- Abstract要約: コントラストデータ共有アプローチを用いたマルチタスクオフライン強化学習であるMODAを紹介する。
我々は,新しいモデルベースマルチタスクオフラインRLアルゴリズムを開発した。
実世界のマルチタスク都市環境における実験により,MODAの有効性が検証された。
- 参考スコア(独自算出の注目度): 19.139077084857487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enhancing diverse human decision-making processes in an urban environment is a critical issue across various applications, including ride-sharing vehicle dispatching, public transportation management, and autonomous driving. Offline reinforcement learning (RL) is a promising approach to learn and optimize human urban strategies (or policies) from pre-collected human-generated spatial-temporal urban data. However, standard offline RL faces two significant challenges: (1) data scarcity and data heterogeneity, and (2) distributional shift. In this paper, we introduce MODA -- a Multi-Task Offline Reinforcement Learning with Contrastive Data Sharing approach. MODA addresses the challenges of data scarcity and heterogeneity in a multi-task urban setting through Contrastive Data Sharing among tasks. This technique involves extracting latent representations of human behaviors by contrasting positive and negative data pairs. It then shares data presenting similar representations with the target task, facilitating data augmentation for each task. Moreover, MODA develops a novel model-based multi-task offline RL algorithm. This algorithm constructs a robust Markov Decision Process (MDP) by integrating a dynamics model with a Generative Adversarial Network (GAN). Once the robust MDP is established, any online RL or planning algorithm can be applied. Extensive experiments conducted in a real-world multi-task urban setting validate the effectiveness of MODA. The results demonstrate that MODA exhibits significant improvements compared to state-of-the-art baselines, showcasing its capability in advancing urban decision-making processes. We also made our code available to the research community.
- Abstract(参考訳): 都市環境における多様な人的意思決定プロセスの強化は、配車サービス、公共交通機関の管理、自動運転など、様々な応用において重要な課題である。
オフライン強化学習(英: Offline reinforcement learning, RL)は、事前収集した人為的空間時間的都市データから人間の都市戦略(または政策)を学習し、最適化するための有望なアプローチである。
しかし、標準オフラインRLは、(1)データの不足とデータの均一性、(2)分散シフトの2つの大きな課題に直面している。
本稿では,Multi-Task Offline Reinforcement Learning with Contrastive Data Sharingアプローチを紹介する。
MODAは、タスク間のContrastive Data Sharingを通じて、マルチタスクの都市環境でのデータ不足と不均一性の課題に対処する。
この手法は、正と負のデータペアを対比することにより、人間の行動の潜在表現を抽出する。
次に、ターゲットタスクに類似した表現を示すデータを共有し、各タスクに対するデータ拡張を容易にする。
さらに、MODAは、新しいモデルベースのマルチタスクオフラインRLアルゴリズムを開発した。
このアルゴリズムは、動的モデルとGAN(Generative Adversarial Network)を統合することにより、ロバストなマルコフ決定プロセス(MDP)を構築する。
堅牢なMDPが確立されると、オンラインのRLや計画アルゴリズムを適用することができる。
実世界のマルチタスク都市環境で行った大規模な実験により,MODAの有効性が検証された。
その結果、MODAは最先端のベースラインに比べて大幅に改善され、都市意思決定プロセスの進展におけるその能力を示すことが示された。
コードもリサーチコミュニティに公開しました。
関連論文リスト
- Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - MEL: Efficient Multi-Task Evolutionary Learning for High-Dimensional
Feature Selection [11.934379476825551]
PSOに基づくマルチタスク進化学習(MEL)という新しい手法を提案する。
異なる特徴選択タスク間での情報共有を組み込むことで、MELは学習能力と効率を向上させる。
我々は、22個の高次元データセットに対する広範囲な実験を通して、MELの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-14T06:51:49Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation [59.77275587857252]
総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
論文 参考訳(メタデータ) (2023-09-25T17:58:46Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - A Transformer Framework for Data Fusion and Multi-Task Learning in Smart
Cities [99.56635097352628]
本稿では,新興スマートシティを対象としたトランスフォーマーベースのAIシステムを提案する。
ほぼ全ての入力データと出力タスクタイプをサポートし、現在のS&CCをサポートする。
S&CC環境を代表する多様なタスクセットを学習して実演する。
論文 参考訳(メタデータ) (2022-11-18T20:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。