論文の概要: Soft Conflict-Resolution Decision Transformer for Offline Multi-Task Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.13133v1
- Date: Mon, 17 Nov 2025 08:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.011733
- Title: Soft Conflict-Resolution Decision Transformer for Offline Multi-Task Reinforcement Learning
- Title(参考訳): オフラインマルチタスク強化学習のためのソフトコンフリクト分解決定変換器
- Authors: Shudong Wang, Xinfei Wang, Chenhao Zhang, Shanchen Pang, Haiyuan Gui, Wenhao Ji, Xiaojian Liao,
- Abstract要約: SoCo-DTはパラメータ重要度に基づくソフト・コンフリクト分解法である。
我々は、インタークアタイルレンジに基づく動的空間調整戦略を導入する。
実験結果から,SoCo-DTはMT50では7.6%,準最適データセットでは10.5%,最先端手法では7.6%を上回った。
- 参考スコア(独自算出の注目度): 10.712621254661302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task reinforcement learning (MTRL) seeks to learn a unified policy for diverse tasks, but often suffers from gradient conflicts across tasks. Existing masking-based methods attempt to mitigate such conflicts by assigning task-specific parameter masks. However, our empirical study shows that coarse-grained binary masks have the problem of over-suppressing key conflicting parameters, hindering knowledge sharing across tasks. Moreover, different tasks exhibit varying conflict levels, yet existing methods use a one-size-fits-all fixed sparsity strategy to keep training stability and performance, which proves inadequate. These limitations hinder the model's generalization and learning efficiency. To address these issues, we propose SoCo-DT, a Soft Conflict-resolution method based by parameter importance. By leveraging Fisher information, mask values are dynamically adjusted to retain important parameters while suppressing conflicting ones. In addition, we introduce a dynamic sparsity adjustment strategy based on the Interquartile Range (IQR), which constructs task-specific thresholding schemes using the distribution of conflict and harmony scores during training. To enable adaptive sparsity evolution throughout training, we further incorporate an asymmetric cosine annealing schedule to continuously update the threshold. Experimental results on the Meta-World benchmark show that SoCo-DT outperforms the state-of-the-art method by 7.6% on MT50 and by 10.5% on the suboptimal dataset, demonstrating its effectiveness in mitigating gradient conflicts and improving overall multi-task performance.
- Abstract(参考訳): マルチタスク強化学習(MTRL)は、多様なタスクに対する統一されたポリシーを学習しようとするが、多くの場合、タスク間の勾配の衝突に悩まされる。
既存のマスクベースの手法は、タスク固有のパラメータマスクを割り当てることで、このような競合を緩和しようとする。
しかし、我々の実証研究は、粗い二面体マスクが重要な競合パラメータを過剰に抑制し、タスク間の知識共有を妨げていることを示している。
さらに、異なるタスクは、さまざまなコンフリクトレベルを示すが、既存のメソッドでは、トレーニングの安定性とパフォーマンスを維持するために、一大の固定空間戦略を使用している。
これらの制限は、モデルの一般化と学習効率を妨げる。
これらの問題に対処するために,パラメータの重要度に基づくソフト・コンフリクト・レゾリューション法であるSoCo-DTを提案する。
フィッシャー情報を活用することにより、マスク値は動的に調整され、重要なパラメータを保持するとともに、競合するパラメータを抑える。
さらに、IQR(Interquartile Range)に基づく動的空間調整戦略を導入し、トレーニング中にコンフリクトとハーモニースコアの分布を用いてタスク固有のしきい値決定手法を構築した。
トレーニングを通して適応的な空間変化を可能にするため,非対称なコサイン焼鈍スケジュールを組み込んでしきい値を継続的に更新する。
Meta-Worldベンチマークの実験結果によると、SoCo-DTはMT50で7.6%、最適データセットで10.5%、勾配競合を緩和し、全体的なマルチタスク性能を改善する効果を示した。
関連論文リスト
- BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文 参考訳(メタデータ) (2025-10-30T11:15:23Z) - CAT Merging: A Training-Free Approach for Resolving Conflicts in Model Merging [10.386229962375548]
マルチタスクモデルの統合は、追加のトレーニングなしで複数のエキスパートモデルを統一モデルに統合するための有望なパラダイムを提供する。
本稿では,タスクベクトルから競合要因を選択的にトリムするトレーニングフリーフレームワークであるConflict-Aware Task Mergingを提案する。
視覚、言語、視覚言語タスクの実験では、CATメルジングが知識の衝突を効果的に抑制し、平均精度を最大2.5%向上させることが示されている。
論文 参考訳(メタデータ) (2025-05-11T13:24:09Z) - Proactive Gradient Conflict Mitigation in Multi-Task Learning: A Sparse Training Perspective [33.477681689943516]
マルチタスク学習における一般的な問題は、勾配衝突の発生である。
スパーストレーニング(ST)による紛争軽減戦略を提案する。
実験の結果,STは競合する勾配を効果的に緩和し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-11-27T18:58:22Z) - Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。