Fugu-MT 論文翻訳(概要): A Closer Look at Loss Weighting in Multi-Task Learning

論文の概要: A Closer Look at Loss Weighting in Multi-Task Learning

arxiv url: http://arxiv.org/abs/2111.10603v1
Date: Sat, 20 Nov 2021 14:28:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-23 16:08:11.076122
Title: A Closer Look at Loss Weighting in Multi-Task Learning
Title（参考訳）: マルチタスク学習における損失重み付けについて
Authors: Baijiong Lin, Feiyang Ye, and Yu Zhang
Abstract要約: マルチタスク学習(MTL)は様々な分野で大きな成功を収めている。ネガティブな影響を避けるために、さまざまなタスクのバランスをとる方法はまだ重要な問題です。我々はRLW(Random Loss Weighting)と呼ばれるシンプルだが効果的な重み付け戦略を提案する。
参考スコア（独自算出の注目度）: 3.508126539399186
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-Task Learning (MTL) has achieved great success in various fields, however, how to balance different tasks to avoid negative effects is still a key problem. To achieve the task balancing, there exist many works to balance task losses or gradients. In this paper, we unify eight representative task balancing methods from the perspective of loss weighting and provide a consistent experimental comparison. Moreover, we surprisingly find that training a MTL model with random weights sampled from a distribution can achieve comparable performance over state-of-the-art baselines. Based on this finding, we propose a simple yet effective weighting strategy called Random Loss Weighting (RLW), which can be implemented in only one additional line of code over existing works. Theoretically, we analyze the convergence of RLW and reveal that RLW has a higher probability to escape local minima than existing models with fixed task weights, resulting in a better generalization ability. Empirically, we extensively evaluate the proposed RLW method on six image datasets and four multilingual tasks from the XTREME benchmark to show the effectiveness of the proposed RLW strategy when compared with state-of-the-art strategies.
Abstract（参考訳）: マルチタスク学習(mtl)は様々な分野で大きな成功を収めているが、ネガティブな効果を避けるために異なるタスクのバランスをとる方法が依然として重要な問題である。タスクバランスを達成するために、タスクの損失や勾配のバランスをとる作業が数多く存在する。本稿では,損失重み付けの観点から8つの代表的タスクバランス手法を統一し,一貫した実験比較を行う。さらに,分布からサンプリングしたランダムな重み付きMLLモデルのトレーニングは,最先端のベースラインよりも高い性能を達成できることがわかった。そこで本研究では,既存の作業に対して1行追加のコードでのみ実装可能な,ランダム損失重み付け (rlw) と呼ばれる簡易かつ効果的な重み付け戦略を提案する。理論的には、RLWの収束を解析し、RLWが既存のタスク重み付きモデルよりも局所最小値から逃れる確率が高いことを明らかにする。 XTREMEベンチマークから提案した6つの画像データセットと4つの多言語タスクに対するRLW手法を実験的に評価し,最先端戦略と比較した場合のRLW手法の有効性を示した。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
CoBa: Convergence Balancer for Multitask Finetuning of Large Language Models [23.50705152648991]
マルチタスク学習(MTL)は,大規模言語モデル(LLM)の微調整に有効である LLM の既存の MTL 戦略は、計算集約的であるか、同時タスク収束の確保に失敗したかのいずれかによって、しばしば不足する。本稿では,タスク収束バランスを最小限の計算オーバーヘッドで効果的に管理する新しいMTL手法であるCoBaを提案する。
論文参考訳（メタデータ） (2024-10-09T10:20:32Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。理論的には,本手法は訓練作業数のサブリニアな後悔を示す。都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文参考訳（メタデータ） (2024-08-08T14:46:01Z)
Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文参考訳（メタデータ） (2024-03-03T22:57:44Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
Provable Benefits of Multi-task RL under Non-Markovian Decision Making Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文参考訳（メタデータ） (2023-10-20T14:50:28Z)
Mitigating Negative Transfer in Multi-Task Learning with Exponential Moving Average Loss Weighting Strategies [0.981328290471248]
MTL(Multi-Task Learning)は、ディープラーニングへの関心が高まっている分野である。特定のタスクがトレーニングを支配し、他のタスクのパフォーマンスを損なう可能性があるため、MTLは実用的ではない。指数移動平均によるスケーリングに基づく損失分散手法を提案する。
論文参考訳（メタデータ） (2022-11-22T09:22:48Z)
Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文参考訳（メタデータ） (2022-07-29T14:52:47Z)
SLAW: Scaled Loss Approximate Weighting for Efficient Multi-Task Learning [0.0]
マルチタスク学習(MTL)は、機械学習のサブフィールドであり、重要な応用がある。最適MTL最適化法は、各タスクの損失関数の勾配を個別に計算する必要がある。マルチタスク最適化手法であるScaled Loss Approximate Weighting (SLAW)を提案する。
論文参考訳（メタデータ） (2021-09-16T20:58:40Z)
Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文参考訳（メタデータ） (2021-04-09T03:13:35Z)
Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。 AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文参考訳（メタデータ） (2020-06-16T02:21:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。