論文の概要: Demonstration Guided Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.03997v1
- Date: Fri, 5 Apr 2024 10:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 16:24:44.855975
- Title: Demonstration Guided Multi-Objective Reinforcement Learning
- Title(参考訳): デモガイドによる多目的強化学習
- Authors: Junlin Lu, Patrick Mannion, Karl Mason,
- Abstract要約: 実証誘導多目的強化学習(DG-MORL)を導入する。
この新しいアプローチでは、事前のデモンストレーションを利用し、コーナーウェイトサポートを通じてユーザの好みに合わせて調整し、自己進化メカニズムを取り入れて、準最適デモを洗練させる。
我々の実証研究は、DG-MORLが既存のMORLアルゴリズムよりも優れていることを示し、その堅牢性と有効性を確立した。
- 参考スコア(独自算出の注目度): 2.9845592719739127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective reinforcement learning (MORL) is increasingly relevant due to its resemblance to real-world scenarios requiring trade-offs between multiple objectives. Catering to diverse user preferences, traditional reinforcement learning faces amplified challenges in MORL. To address the difficulty of training policies from scratch in MORL, we introduce demonstration-guided multi-objective reinforcement learning (DG-MORL). This novel approach utilizes prior demonstrations, aligns them with user preferences via corner weight support, and incorporates a self-evolving mechanism to refine suboptimal demonstrations. Our empirical studies demonstrate DG-MORL's superiority over existing MORL algorithms, establishing its robustness and efficacy, particularly under challenging conditions. We also provide an upper bound of the algorithm's sample complexity.
- Abstract(参考訳): 多目的強化学習(MORL)は、複数の目的間のトレードオフを必要とする現実のシナリオに類似していることから、ますます関連性が高まっている。
多様なユーザの好みに合わせて、従来の強化学習はMORLの課題を増幅する。
MORLにおける訓練方針の難しさに対処するために,実証誘導多目的強化学習(DG-MORL)を導入する。
この新しいアプローチでは、事前のデモンストレーションを利用し、コーナーウェイトサポートを通じてユーザの好みに合わせて調整し、自己進化メカニズムを取り入れて、準最適デモを洗練させる。
我々の実証研究は、DG-MORLが既存のMORLアルゴリズムよりも優れていることを示した。
また、アルゴリズムのサンプル複雑性の上限も提供する。
関連論文リスト
- MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Text-centric Alignment for Multi-Modality Learning [3.965388868734421]
マルチモーダル学習のためのテキスト中心アライメント(TAMML)を提案する。
テキストのユニークな性質を統一意味空間として活用することにより、TAMMLは目に見えない、多様性があり、予測不可能なモダリティの組み合わせを扱う上で、大幅な改善を示す。
本研究は,モダリティの可用性が動的で不確実な実世界のアプリケーションに対して,フレキシブルで効果的なソリューションを提供することによって,この分野に寄与する。
論文 参考訳(メタデータ) (2024-02-12T22:07:43Z) - LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - ESP: Exploiting Symmetry Prior for Multi-Agent Reinforcement Learning [22.733348449818838]
マルチエージェント強化学習(MARL)は近年,有望な成果を上げている。
本稿では、データ拡張とよく設計された一貫性損失を統合することで、事前知識を活用するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T09:49:05Z) - MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning [14.06682547001011]
最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。
本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。
提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
論文 参考訳(メタデータ) (2021-12-30T19:21:03Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。