論文の概要: Minimum Description Length Control
- arxiv url: http://arxiv.org/abs/2207.08258v2
- Date: Tue, 19 Jul 2022 07:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 11:17:41.401045
- Title: Minimum Description Length Control
- Title(参考訳): 最小記述長制御
- Authors: Ted Moskovitz, Ta-Chu Kao, Maneesh Sahani, Matthew M. Botvinick
- Abstract要約: 最小記述長(MDL)原理に基づくマルチタスク強化学習のための新しいフレームワークを提案する。
MDL制御(MDL-C)と呼ばれるこのアプローチでは、エージェントは、直面するタスク間の共通構造を学習し、それをより単純な表現に蒸留し、新しいタスクへのより早い収束と一般化を容易にする。
- 参考スコア(独自算出の注目度): 15.678494570302696
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel framework for multitask reinforcement learning based on
the minimum description length (MDL) principle. In this approach, which we term
MDL-control (MDL-C), the agent learns the common structure among the tasks with
which it is faced and then distills it into a simpler representation which
facilitates faster convergence and generalization to new tasks. In doing so,
MDL-C naturally balances adaptation to each task with epistemic uncertainty
about the task distribution. We motivate MDL-C via formal connections between
the MDL principle and Bayesian inference, derive theoretical performance
guarantees, and demonstrate MDL-C's empirical effectiveness on both discrete
and high-dimensional continuous control tasks. %Empirically, this framework is
used to modify existing policy optimization approaches and improves their
multitask performance in both discrete and high-dimensional continuous control
problems.
- Abstract(参考訳): 最小記述長(MDL)原理に基づくマルチタスク強化学習のための新しいフレームワークを提案する。
MDL制御(MDL-C)と呼ばれるこのアプローチでは、エージェントは、直面するタスク間の共通構造を学習し、それをより単純な表現に蒸留し、新しいタスクへのより早い収束と一般化を容易にする。
MDL-Cは各タスクへの適応とタスク分布に対する認識的不確実性とを自然にバランスさせる。
我々はMDL-Cの原理とベイジアン推論の形式的接続を通じて、MDL-Cを動機付け、理論的な性能保証を導き、MDL-Cの離散的および高次元連続制御タスクにおける経験的効果を示す。
このフレームワークは、離散的かつ高次元の連続制御問題において、既存のポリシー最適化アプローチの修正やマルチタスク性能の向上に利用されている。
関連論文リスト
- CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models [23.50705152648991]
マルチタスク学習(MTL)は,大規模言語モデル(LLM)の微調整に有効である
LLM の既存の MTL 戦略は、計算集約的であるか、同時タスク収束の確保に失敗したかのいずれかによって、しばしば不足する。
本稿では,タスク収束バランスを最小限の計算オーバーヘッドで効果的に管理する新しいMTL手法であるCoBaを提案する。
論文 参考訳(メタデータ) (2024-10-09T10:20:32Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。
最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。
しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。
私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文 参考訳(メタデータ) (2024-10-01T12:58:37Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Efficient Multi-Task Reinforcement Learning via Task-Specific Action Correction [10.388605128396678]
Task-Specific Action Correctionは複数のタスクの同時学習用に設計されている。
ACPは目標指向のスパース報酬を取り入れており、エージェントが長期的な視点を採用することができる。
付加的な報酬は、元の問題を多目的MTRL問題に変換する。
論文 参考訳(メタデータ) (2024-04-09T02:11:35Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - Multi-Task Learning as a Bargaining Game [63.49888996291245]
マルチタスク学習(MTL)では、複数のタスクを同時に予測するためにジョイントモデルを訓練する。
これらの異なるタスクの勾配が矛盾する可能性があるため、MTLのジョイントモデルを訓練すると、対応するシングルタスクモデルよりも低いパフォーマンスが得られる。
本稿では,パラメータ更新のジョイント方向で合意に達するためのタスクを交渉する交渉ゲームとして,勾配の組み合わせステップを考察する。
論文 参考訳(メタデータ) (2022-02-02T13:21:53Z) - Compositionality of Linearly Solvable Optimal Control in Networked
Multi-Agent Systems [27.544923751902807]
マルチエージェントシステム(MAS)における学習されたコンポーネントタスクから未学習の複合タスクへの最適制御則の一般化手法について議論する。
提案手法は, 離散時間と連続時間の両方において, 協調MASフレームワーク内で同時に制御動作の構成性と最適性を実現する。
論文 参考訳(メタデータ) (2020-09-28T20:21:48Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。