Fugu-MT 論文翻訳(概要): Lifelong Reinforcement Learning with Similarity-Driven Weighting by Large Models

論文の概要: Lifelong Reinforcement Learning with Similarity-Driven Weighting by Large Models

arxiv url: http://arxiv.org/abs/2503.12923v1
Date: Mon, 17 Mar 2025 08:36:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:58.176253
Title: Lifelong Reinforcement Learning with Similarity-Driven Weighting by Large Models
Title（参考訳）: 大規模モデルによる類似度駆動重み付けによる生涯強化学習
Authors: Zhiyi Huang, Xiaohan Shan, Jianmin Li,
Abstract要約: 学習過程を制御するために,大規模言語モデル生成動的関数を利用する新しいフレームワークSDWを提案する。 SDWの中核は、タスク類似性関数と重み計算関数という、大きなモデルによって事前に生成される2つの関数にある。 Atari と MiniHack のシーケンシャルタスクに対する実験結果から,SDW が既存の長寿命強化学習法を著しく上回っていることが示された。
参考スコア（独自算出の注目度）: 4.265969066588072
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Lifelong Reinforcement Learning (LRL) holds significant potential for addressing sequential tasks, but it still faces considerable challenges. A key difficulty lies in effectively preventing catastrophic forgetting and facilitating knowledge transfer while maintaining reliable decision-making performance across subsequent tasks in dynamic environments. To tackle this, we propose a novel framework, SDW (Similarity-Driven Weighting Framework), which leverages large-language-model-generated dynamic functions to precisely control the training process. The core of SDW lies in two functions pre-generated by large models: the task similarity function and the weight computation function. The task similarity function extracts multidimensional features from task descriptions to quantify the similarities and differences between tasks in terms of states, actions, and rewards. The weight computation function dynamically generates critical training parameters based on the similarity information, including the proportion of old task data stored in the Replay Buffer and the strategy consistency weight in the loss function, enabling an adaptive balance between learning new tasks and transferring knowledge from previous tasks. By generating function code offline prior to training, rather than relying on large-model inference during the training process, the SDW framework reduces computational overhead while maintaining efficiency in sequential task scenarios. Experimental results on Atari and MiniHack sequential tasks demonstrate that SDW significantly outperforms existing lifelong reinforcement learning methods.
Abstract（参考訳）: 生涯強化学習(LRL)は、逐次的なタスクに対処する大きな可能性を秘めているが、それでもかなりの課題に直面している。重要な課題は、動的環境におけるその後のタスク間での信頼性の高い意思決定性能を維持しながら、破滅的な忘れ込みと知識伝達の促進を効果的に防ぐことである。そこで本研究では,大規模言語モデル生成動的関数を利用したSDW(Similarity-Driven Weighting Framework)を提案する。 SDWの中核は、タスク類似性関数と重み計算関数という、大きなモデルによって事前に生成される2つの関数にある。タスク類似度関数はタスク記述から多次元の特徴を抽出し、状態、行動、報酬の観点でタスク間の類似度と差異を定量化する。重み計算関数は、リプレイバッファに格納された旧タスクデータの比率と損失関数の戦略整合度重みとの類似性情報に基づいて臨界訓練パラメータを動的に生成し、新しいタスクの学習と過去のタスクからの知識の伝達との適応的バランスを可能にする。トレーニングプロセス中に大規模なモデル推論に頼るのではなく、トレーニング前に関数コードをオフラインで生成することにより、SDWフレームワークは、シーケンシャルなタスクシナリオにおける効率を維持しながら、計算オーバーヘッドを低減する。 Atari と MiniHack のシーケンシャルタスクに対する実験結果から,SDW が既存の長寿命強化学習法を著しく上回っていることが示された。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,新しい値に基づく強化学習アルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。我々は,53のロボットタスクに対して,疎密かつ高密度な報酬と実演と無実の報酬を用いたアルゴリズムを検討した。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
How Feature Learning Can Improve Neural Scaling Laws [86.9540615081759]
我々は,カーネル限界を超えたニューラルスケーリング法則の解法モデルを開発する。モデルのサイズ、トレーニング時間、利用可能なデータの総量によるパフォーマンスのスケールアップ方法を示す。
論文参考訳（メタデータ） (2024-09-26T14:05:32Z)
Zero-Shot Reinforcement Learning via Function Encoders [23.57570432980556]
本稿では,学習された非線形基底関数の重み付け結合として関数を表現する表現学習アルゴリズムである関数エンコーダを紹介する。関数エンコーダを使用して報酬関数や遷移関数を表現することにより、エージェントは、現在のタスクが以前見られたタスクとどのように関連しているかに関する情報を得る。基本RLアルゴリズムを関数タスク表現で拡張することにより、3つのRLフィールドにおける最先端のデータ効率、安定性、および訓練安定性を実証する。
論文参考訳（メタデータ） (2024-01-30T17:04:47Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文参考訳（メタデータ） (2023-06-26T17:53:05Z)
Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文参考訳（メタデータ） (2023-05-22T08:39:25Z)
Neural Weight Search for Scalable Task Incremental Learning [6.413209417643468]
タスクインクリメンタル学習は,新たなタスクを学習しながら,それまでの学習したタスクのパフォーマンスを維持することを目的として,破滅的な忘れを解消する。有望なアプローチの1つは、将来のタスクのために個々のネットワークやサブネットワークを構築することである。これにより、新しいタスクに対する余分な負担を省き、この問題に対処する方法がタスクインクリメンタルな学習においてオープンな問題として残されているため、メモリの増大が続く。
論文参考訳（メタデータ） (2022-11-24T23:30:23Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)
HydaLearn: Highly Dynamic Task Weighting for Multi-task Learning with Auxiliary Tasks [4.095907708855597]
マルチタスク学習(MTL)は、1つ以上の関連する補助タスクと表現を共有することでタスクのパフォーマンスを向上させることができる。通常、MTL-networksは、個別のタスク損失の一定の重み付けによる複合損失関数に基づいて訓練される。実際には, 一定損失重みは, (i) ミニバッチに基づく最適化において, 最適タスク重みは, ミニバッチのサンプル組成に応じて, 更新から次へと大きく変化する。メインタスクのゲインを個別のタスク勾配に結びつけるインテリジェントな重み付けアルゴリズムであるHydaLearnを導入して,その情報を伝達する。
論文参考訳（メタデータ） (2020-08-26T16:04:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。