Fugu-MT 論文翻訳(概要): Minimum Description Length Control

論文の概要: Minimum Description Length Control

arxiv url: http://arxiv.org/abs/2207.08258v2
Date: Tue, 19 Jul 2022 07:56:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-20 11:17:41.401045
Title: Minimum Description Length Control
Title（参考訳）: 最小記述長制御
Authors: Ted Moskovitz, Ta-Chu Kao, Maneesh Sahani, Matthew M. Botvinick
Abstract要約: 最小記述長(MDL)原理に基づくマルチタスク強化学習のための新しいフレームワークを提案する。 MDL制御(MDL-C)と呼ばれるこのアプローチでは、エージェントは、直面するタスク間の共通構造を学習し、それをより単純な表現に蒸留し、新しいタスクへのより早い収束と一般化を容易にする。
参考スコア（独自算出の注目度）: 15.678494570302696
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose a novel framework for multitask reinforcement learning based on the minimum description length (MDL) principle. In this approach, which we term MDL-control (MDL-C), the agent learns the common structure among the tasks with which it is faced and then distills it into a simpler representation which facilitates faster convergence and generalization to new tasks. In doing so, MDL-C naturally balances adaptation to each task with epistemic uncertainty about the task distribution. We motivate MDL-C via formal connections between the MDL principle and Bayesian inference, derive theoretical performance guarantees, and demonstrate MDL-C's empirical effectiveness on both discrete and high-dimensional continuous control tasks. %Empirically, this framework is used to modify existing policy optimization approaches and improves their multitask performance in both discrete and high-dimensional continuous control problems.
Abstract（参考訳）: 最小記述長(MDL)原理に基づくマルチタスク強化学習のための新しいフレームワークを提案する。 MDL制御(MDL-C)と呼ばれるこのアプローチでは、エージェントは、直面するタスク間の共通構造を学習し、それをより単純な表現に蒸留し、新しいタスクへのより早い収束と一般化を容易にする。 MDL-Cは各タスクへの適応とタスク分布に対する認識的不確実性とを自然にバランスさせる。我々はMDL-Cの原理とベイジアン推論の形式的接続を通じて、MDL-Cを動機付け、理論的な性能保証を導き、MDL-Cの離散的および高次元連続制御タスクにおける経験的効果を示す。このフレームワークは、離散的かつ高次元の連続制御問題において、既存のポリシー最適化アプローチの修正やマルチタスク性能の向上に利用されている。

関連論文リスト

VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。 PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文参考訳（メタデータ） (2025-07-30T12:23:21Z)
Injecting Imbalance Sensitivity for Multi-Task Learning [36.60453299563175]
マルチタスク学習(MTL)は、リアルタイムアプリケーションにディープラーニングモデルをデプロイするための有望なアプローチとして登場した。近年,MLLにおけるタスク共有表現を確立するための最適化に基づく学習パラダイムが提案されている。本稿は、これらの研究が主に紛争問題を強調しつつ、MTLにおける不均衡/支配の潜在的に重大な影響を無視していることを実証的に論じる。
論文参考訳（メタデータ） (2025-03-11T03:11:54Z)
CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models [23.50705152648991]
マルチタスク学習(MTL)は,大規模言語モデル(LLM)の微調整に有効である LLM の既存の MTL 戦略は、計算集約的であるか、同時タスク収束の確保に失敗したかのいずれかによって、しばしば不足する。本稿では,タスク収束バランスを最小限の計算オーバーヘッドで効果的に管理する新しいMTL手法であるCoBaを提案する。
論文参考訳（メタデータ） (2024-10-09T10:20:32Z)
Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文参考訳（メタデータ） (2024-10-07T23:38:58Z)
ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models [103.45785408116146]
連続学習(CL)は、連続的に提示される複数のタスクを解決できるモデルを訓練することを目的としている。最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。私たちは、経験的に強いアプローチを原則化されたフレームワークに統合することで、このギャップを埋めます。
論文参考訳（メタデータ） (2024-10-01T12:58:37Z)
HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文参考訳（メタデータ） (2024-05-28T11:41:41Z)
Efficient Multi-Task Reinforcement Learning via Task-Specific Action Correction [10.388605128396678]
Task-Specific Action Correctionは複数のタスクの同時学習用に設計されている。 ACPは目標指向のスパース報酬を取り入れており、エージェントが長期的な視点を採用することができる。付加的な報酬は、元の問題を多目的MTRL問題に変換する。
論文参考訳（メタデータ） (2024-04-09T02:11:35Z)
Towards Principled Task Grouping for Multi-Task Learning [12.757893623250252]
マルチタスク学習(MTL)は、タスク間の共有情報を活用し、学習効率と精度を向上させることを目的としている。 MTLは、多くの場合、タスク間の正と負の転送を効果的に管理するのに苦労し、パフォーマンス改善を妨げます。本稿では,MTLにおけるタスクグループ化の原則的アプローチを提案する。
論文参考訳（メタデータ） (2024-02-23T13:51:20Z)
Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文参考訳（メタデータ） (2023-09-30T07:11:39Z)
Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior: From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。 PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文参考訳（メタデータ） (2022-11-14T08:51:04Z)
Multi-Task Learning as a Bargaining Game [63.49888996291245]
マルチタスク学習(MTL)では、複数のタスクを同時に予測するためにジョイントモデルを訓練する。これらの異なるタスクの勾配が矛盾する可能性があるため、MTLのジョイントモデルを訓練すると、対応するシングルタスクモデルよりも低いパフォーマンスが得られる。本稿では,パラメータ更新のジョイント方向で合意に達するためのタスクを交渉する交渉ゲームとして,勾配の組み合わせステップを考察する。
論文参考訳（メタデータ） (2022-02-02T13:21:53Z)
Compositionality of Linearly Solvable Optimal Control in Networked Multi-Agent Systems [27.544923751902807]
マルチエージェントシステム(MAS)における学習されたコンポーネントタスクから未学習の複合タスクへの最適制御則の一般化手法について議論する。提案手法は, 離散時間と連続時間の両方において, 協調MASフレームワーク内で同時に制御動作の構成性と最適性を実現する。
論文参考訳（メタデータ） (2020-09-28T20:21:48Z)
Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文参考訳（メタデータ） (2020-07-14T17:25:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。