論文の概要: The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2405.11226v1
- Date: Sat, 18 May 2024 08:29:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 18:48:01.286800
- Title: The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback
- Title(参考訳): ヒューマンフィードバックによる強化学習におけるアクティブマルチタスク学習の力
- Authors: Ruitao Chen, Liwei Wang,
- Abstract要約: 人間のフィードバックからの強化学習は、大きな言語モデルの性能向上に寄与している。
我々は、RLHFをコンテキストデュエルバンディット問題として定式化し、共通の線形表現を仮定する。
我々は、$varepsilon-$optimalを達成するために、ソースタスクのサンプルの複雑さを著しく低減することができることを証明した。
- 参考スコア(独自算出の注目度): 12.388205905012423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has contributed to performance improvements in large language models. To tackle its reliance on substantial amounts of human-labeled data, a successful approach is multi-task representation learning, which involves learning a high-quality, low-dimensional representation from a wide range of source tasks. In this paper, we formulate RLHF as the contextual dueling bandit problem and assume a common linear representation. We demonstrate that the sample complexity of source tasks in multi-task RLHF can be reduced by considering task relevance and allocating different sample sizes to source tasks with varying task relevance. We further propose an algorithm to estimate task relevance by a small number of additional data and then learn a policy. We prove that to achieve $\varepsilon-$optimal, the sample complexity of the source tasks can be significantly reduced compared to uniform sampling. Additionally, the sample complexity of the target task is only linear in the dimension of the latent space, thanks to representation learning.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルの性能向上に寄与している。
大量の人ラベルデータに依存するために、マルチタスク表現学習が成功し、様々なソースタスクから高品質で低次元の表現を学習する。
本稿では,RLHFをコンテキストデュエルバンディット問題として定式化し,共通線型表現を仮定する。
マルチタスクRLHFにおけるソースタスクのサンプル複雑性は、タスク関連性を考慮して、異なるサンプルサイズを様々なタスク関連性でソースタスクに割り当てることによって低減できることを示す。
さらに,少数の追加データを用いてタスク関連性を推定し,ポリシーを学習するアルゴリズムを提案する。
我々は,$\varepsilon-$optimalを達成するために,一様サンプリングと比較して,ソースタスクのサンプルの複雑さを著しく低減できることを示した。
さらに、目的のタスクのサンプルの複雑さは、表現学習のおかげで、潜在空間の次元においてのみ線形である。
関連論文リスト
- Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Identification of Negative Transfers in Multitask Learning Using
Surrogate Models [29.882265735630046]
マルチタスク学習は、複数の関連するソースタスクで強化することで、低リソースのターゲットタスクのトレーニングに広く使用されている。
マルチタスク学習における重要な問題は、ターゲットタスクに利益をもたらすソースタスクのサブセットを特定することである。
本稿では,サロゲートモデルを用いてこの問題に対処する効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T23:16:11Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。