Fugu-MT 論文翻訳(概要): RL-AUX: Reinforcement Learning for Auxiliary Task Generation

論文の概要: RL-AUX: Reinforcement Learning for Auxiliary Task Generation

arxiv url: http://arxiv.org/abs/2510.22940v2
Date: Tue, 28 Oct 2025 02:44:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-29 13:20:32.901918
Title: RL-AUX: Reinforcement Learning for Auxiliary Task Generation
Title（参考訳）: RL-AUX:補助タスク生成のための強化学習
Authors: Judah Goldfeder, Matthew So, Hod Lipson,
Abstract要約: 補助タスクを動的に作成するためのRLベースのアプローチを提案する。このフレームワークでは、RLエージェントがトレーニングセット内の各データポイントに対する補助ラベルを選択する。ウェイトラーニングのアプローチは、これらのベンチマーク全てを大幅に上回っています。
参考スコア（独自算出の注目度）: 5.948273590155768
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Auxiliary Learning (AL) is a special case of Multi-task Learning (MTL) in which a network trains on auxiliary tasks to improve performance on its main task. This technique is used to improve generalization and, ultimately, performance on the network's main task. AL has been demonstrated to improve performance across multiple domains, including navigation, image classification, and natural language processing. One weakness of AL is the need for labeled auxiliary tasks, which can require human effort and domain expertise to generate. Meta Learning techniques have been used to solve this issue by learning an additional auxiliary task generation network that can create helpful tasks for the primary network. The most prominent techniques rely on Bi-Level Optimization, which incurs computational cost and increased code complexity. To avoid the need for Bi-Level Optimization, we present an RL-based approach to dynamically create auxiliary tasks. In this framework, an RL agent is tasked with selecting auxiliary labels for every data point in a training set. The agent is rewarded when their selection improves the performance on the primary task. We also experiment with learning optimal strategies for weighing the auxiliary loss per data point. On the 20-Superclass CIFAR100 problem, our RL approach outperforms human-labeled auxiliary tasks and performs as well as a prominent Bi-Level Optimization technique. Our weight learning approaches significantly outperform all of these benchmarks. For example, a Weight-Aware RL-based approach helps the VGG16 architecture achieve 80.9% test accuracy while the human-labeled auxiliary task setup achieved 75.53%. The goal of this work is to (1) prove that RL is a viable approach to dynamically generate auxiliary tasks and (2) demonstrate that per-sample auxiliary task weights can be learned alongside the auxiliary task labels and can achieve strong results.
Abstract（参考訳）: 補助学習(英語: Auxiliary Learning, AL)とは、マルチタスク学習(MTL)において、ネットワークがメインタスクのパフォーマンスを向上させるために補助タスクを訓練する特殊な事例である。この技術は、一般化を改善し、最終的にはネットワークのメインタスクのパフォーマンスを向上させるために使われる。 ALはナビゲーション、画像分類、自然言語処理など、複数の領域にわたるパフォーマンス向上を実証されている。 ALの弱点の1つは、ラベル付き補助タスクの必要性である。メタラーニング技術は、プライマリネットワークに有用なタスクを作成できる追加のタスク生成ネットワークを学習することで、この問題を解決するために使われてきた。最も顕著なテクニックは、計算コストとコードの複雑さを増大させるBi-Level Optimizationである。バイレベル最適化の必要性を回避するため,動的に補助タスクを作成するためのRLベースのアプローチを提案する。このフレームワークでは、RLエージェントがトレーニングセット内の各データポイントに対する補助ラベルを選択する。エージェントは、プライマリタスクのパフォーマンスが向上すると報奨される。また,データポイントあたりの補助的損失を測定するための最適戦略を学習する実験を行った。 20級CIFAR100問題では、RL手法は人間のラベル付き補助タスクよりも優れており、バイレベル最適化技術としても優れている。ウェイトラーニングのアプローチは、これらのベンチマーク全てを大幅に上回っています。例えば、Weight-Aware RLベースのアプローチは、VGG16アーキテクチャが80.9%のテスト精度を達成するのに役立ち、人間ラベル付き補助タスクのセットアップは75.53%を達成した。本研究の目的は,(1)RLが補助タスクを動的に生成するための実行可能なアプローチであることを証明し,(2)補助タスクラベルとともにサンプルごとの補助タスク重みを学習し,強力な結果が得られることを示すことである。

関連論文リスト

Coreset-Based Task Selection for Sample-Efficient Meta-Reinforcement Learning [1.2952597101899859]
モデル非依存型メタ強化学習(MAML-RL)におけるサンプル効率向上のためのタスク選択の検討勾配空間におけるタスクの多様性に基づいて,タスクの重み付きサブセットを選択する,コアセットベースのタスク選択手法を提案する。複数のRLベンチマーク問題にまたがるこの傾向を数値的に検証し,LQRベースラインを越えたタスク選択の利点について考察した。
論文参考訳（メタデータ） (2025-02-04T14:09:00Z)
Aux-NAS: Exploiting Auxiliary Labels with Negligibly Extra Inference Cost [73.28626942658022]
本研究の目的は,独立タスク(副次タスク)から追加の補助ラベルを活用することで,タスクのパフォーマンスを向上させることである。本手法は,主タスクと補助タスクのための柔軟な非対称構造を持つアーキテクチャに基づく。 VGG、ResNet、ViTのバックボーンを使用して、NYU v2、CityScapes、Taskonomyデータセット上の6つのタスクで実験を行った。
論文参考訳（メタデータ） (2024-05-09T11:50:19Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Sample Efficient Reinforcement Learning by Automatically Learning to Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文参考訳（メタデータ） (2024-01-25T15:06:40Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。 FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文参考訳（メタデータ） (2023-02-01T18:59:36Z)
Reinforcement Learning with Automated Auxiliary Loss Search [34.83123677004838]
補助的損失関数を用いたより良い表現を学習するための原理的,普遍的な手法を提案する。具体的には、7.5×1020$の一般的な補助損失空間を定義し、効率的な進化的探索戦略を用いて空間を探索する。その結果, 高次元(イメージ)と低次元(ベクター)の両タスクにおいて, 補助的損失が有意に改善されることが判明した。
論文参考訳（メタデータ） (2022-10-12T09:24:53Z)
DL-DRL: A double-level deep reinforcement learning approach for large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文参考訳（メタデータ） (2022-08-04T04:35:53Z)
Lean Evolutionary Reinforcement Learning by Multitasking with Importance Sampling [20.9680985132322]
本稿では,新しいニューロ進化的マルチタスク(NuEMT)アルゴリズムを導入し,一連の補助タスクからターゲット(フル長)RLタスクへ情報を伝達する。我々は、NuEMTアルゴリズムがデータ-リーン進化RLであり、高価なエージェント-環境相互作用データ要求を減らすことを実証する。
論文参考訳（メタデータ） (2022-03-21T10:06:16Z)
Auxiliary Task Reweighting for Minimum-data Learning [118.69683270159108]
教師付き学習は大量のトレーニングデータを必要とし、ラベル付きデータが不足しているアプリケーションを制限する。データ不足を補う1つの方法は、補助的なタスクを利用して、メインタスクに対する追加の監視を提供することである。そこで本研究では,主タスクにおけるデータ要求を減らし,補助タスクを自動的に重み付けする手法を提案する。
論文参考訳（メタデータ） (2020-10-16T08:45:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。