Fugu-MT 論文翻訳(概要): The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback

論文の概要: The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback

arxiv url: http://arxiv.org/abs/2405.11226v1
Date: Sat, 18 May 2024 08:29:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 18:48:01.286800
Title: The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback
Title（参考訳）: ヒューマンフィードバックによる強化学習におけるアクティブマルチタスク学習の力
Authors: Ruitao Chen, Liwei Wang,
Abstract要約: 人間のフィードバックからの強化学習は、大きな言語モデルの性能向上に寄与している。我々は、RLHFをコンテキストデュエルバンディット問題として定式化し、共通の線形表現を仮定する。我々は、$varepsilon-$optimalを達成するために、ソースタスクのサンプルの複雑さを著しく低減することができることを証明した。
参考スコア（独自算出の注目度）: 12.388205905012423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning from human feedback (RLHF) has contributed to performance improvements in large language models. To tackle its reliance on substantial amounts of human-labeled data, a successful approach is multi-task representation learning, which involves learning a high-quality, low-dimensional representation from a wide range of source tasks. In this paper, we formulate RLHF as the contextual dueling bandit problem and assume a common linear representation. We demonstrate that the sample complexity of source tasks in multi-task RLHF can be reduced by considering task relevance and allocating different sample sizes to source tasks with varying task relevance. We further propose an algorithm to estimate task relevance by a small number of additional data and then learn a policy. We prove that to achieve $\varepsilon-$optimal, the sample complexity of the source tasks can be significantly reduced compared to uniform sampling. Additionally, the sample complexity of the target task is only linear in the dimension of the latent space, thanks to representation learning.
Abstract（参考訳）: 人間のフィードバックからの強化学習(RLHF)は、大規模言語モデルの性能向上に寄与している。大量の人ラベルデータに依存するために、マルチタスク表現学習が成功し、様々なソースタスクから高品質で低次元の表現を学習する。本稿では,RLHFをコンテキストデュエルバンディット問題として定式化し,共通線型表現を仮定する。マルチタスクRLHFにおけるソースタスクのサンプル複雑性は、タスク関連性を考慮して、異なるサンプルサイズを様々なタスク関連性でソースタスクに割り当てることによって低減できることを示す。さらに,少数の追加データを用いてタスク関連性を推定し,ポリシーを学習するアルゴリズムを提案する。我々は,$\varepsilon-$optimalを達成するために,一様サンプリングと比較して,ソースタスクのサンプルの複雑さを著しく低減できることを示した。さらに、目的のタスクのサンプルの複雑さは、表現学習のおかげで、潜在空間の次元においてのみ線形である。

関連論文リスト

Generalisation in Multitask Fitted Q-Iteration and Offline Q-learning [0.0]
本研究では,複数のタスクが動作値関数の低ランク表現を共有する環境で,オフラインマルチタスク強化学習について検討する。我々は、共有表現とタスク固有値関数を共同で学習する、適合Q-イテレーションのマルチタスク変種を解析する。本稿は,マルチタスクオフラインQ-ラーニングにおける共有表現の役割を明らかにし,マルチタスク構造が一般化をいかに改善できるかに関する理論的知見を提供する。
論文参考訳（メタデータ） (2025-12-23T10:20:11Z)
Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文参考訳（メタデータ） (2024-01-07T18:12:20Z)
Distribution Matching for Multi-Task Learning of Classification Tasks: a Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。 MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-02T14:18:11Z)
Provable Benefits of Multi-task RL under Non-Markovian Decision Making Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文参考訳（メタデータ） (2023-10-20T14:50:28Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
Identification of Negative Transfers in Multitask Learning Using Surrogate Models [29.882265735630046]
マルチタスク学習は、複数の関連するソースタスクで強化することで、低リソースのターゲットタスクのトレーニングに広く使用されている。マルチタスク学習における重要な問題は、ターゲットタスクに利益をもたらすソースタスクのサブセットを特定することである。本稿では,サロゲートモデルを用いてこの問題に対処する効率的な手法を提案する。
論文参考訳（メタデータ） (2023-03-25T23:16:11Z)
Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文参考訳（メタデータ） (2022-05-29T04:31:29Z)
An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文参考訳（メタデータ） (2022-05-25T13:10:47Z)
Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文参考訳（メタデータ） (2022-02-02T08:23:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。